Python网络编程 —— 粘包问题及解决方法

2022-10-20 12:24:49

1、粘包

粘包现象：当多条消息发送时接收变成了一条或者出现接收不准确的情况

（1）、会发生粘包的两种情况

<1> 粘包现象会发生在发送端：发送端需要等缓冲区满才发送出去，造成粘包

两条消息间隔时间短，长度短，就会把两条消息在发送之前拼接在一起

节省每一次发送消息回复的网络资源

<2> 粘包现象会发生在接收端：接收方不及时接收缓冲区的包，造成多个包一起接收

多条消息发送到缓存端，但没有被及时接收，或者接收的长度不足一次发送的长度

<3> 粘包现象的本质：发送的每一条数据之间没有边界

粘包现象只发生在 tcp 协议中：

从表面上看，粘包问题主要是因为发送方和接收方的缓存机制、tcp 协议面向流通信的特点。
实际上，主要还是因为接收方不知道消息之间的界限，不知道一次性提取多少字节的数据所造成的。

总的来说就是数据与数据之间没有边界，所以出现了粘包现象。

（2）、粘包成因

<1> TCP协议中的数据传递

tcp 协议的拆包机制：

当发送端缓冲区的长度大于网卡的 MTU 时，tcp会将这次发送的数据拆成几个数据包发送出去。 
MTU是Maximum Transmission Unit的缩写。意思是网络上传送的最大数据包。MTU的单位是字节。 大部分网络设备的MTU都是1500。如果本机的MTU比网关的MTU大，大的数据包就会被拆开来传送，这样会产生很多数据包碎片，增加丢包率，降低网络速度。

面向流的通信特点和Nagle算法：

TCP（transport control protocol，传输控制协议）是面向连接的，面向流的，提供高可靠性服务。
收发两端（客户端和服务器端）都要有一一成对的socket，因此，发送端为了将多个发往接收端的包，更有效的发到对方，使用了优化方法（Nagle算法），将多次间隔较小且数据量小的数据，合并成一个大的数据块，然后进行封包。
这样，接收端，就难于分辨出来了，必须提供科学的拆包机制。 即面向流的通信是无消息保护边界的。 
对于空消息：tcp是基于数据流的，于是收发的消息不能为空，这就需要在客户端和服务端都添加空消息的处理机制，防止程序卡住，而udp是基于数据报的，即便是你输入的是空内容（直接回车），也可以被发送，udp协议会帮你封装上消息头发送过去。 
可靠粘包的tcp协议：tcp的协议数据不会丢，没有收完包，下次接收，会继续上次继续接收，己端总是在收到ack时才会清除缓冲区内容。数据是可靠的，但是会粘包。

基于tcp协议特点的粘包现象成因 :

发送端可以是1K 1K地发送数据，而接收端的应用程序可以两K两K地提走数据，当然也有可能一次提走3K或6K数据，或者一次只提走几个字节的数据。
也就是说，应用程序所看到的数据是一个整体，或说是一个流（stream），一条消息有多少字节对应用程序是不可见的，因此TCP协议是面向流的协议，这也是容易出现粘包问题的原因。
而UDP是面向消息的协议，每个UDP段都是一条消息，应用程序必须以消息为单位提取数据，不能一次提取任意字节的数据，这一点和TCP是很不同的。
怎样定义消息呢？可以认为对方一次性write/send的数据为一个消息，需要明白的是当对方send一条信息的时候，无论底层怎样分段分片，TCP协议层会把构成整条消息的数据段排序完成后才呈现在内核缓冲区。

例如基于tcp的套接字客户端往服务端上传文件，发送时文件内容是按照一段一段的字节流发送的，在接收方看了，根本不知道该文件的字节流从何处开始，在何处结束。

此外，发送方引起的粘包是由TCP协议本身造成的，TCP为提高传输效率，发送方往往要收集到足够多的数据后才发送一个TCP段。若连续几次需要send的数据都很少，通常TCP会根据优化算法把这些数据合成一个TCP段后一次发送出去，这样接收方就收到了粘包数据。

<2> UDP不会发生粘包

UDP（user datagram protocol，用户数据报协议）是无连接的，面向消息的，提供高效率服务。 
不会使用块的合并优化算法，, 由于UDP支持的是一对多的模式，所以接收端的skbuff(套接字缓冲区）采用了链式结构来记录每一个到达的UDP包，在每个UDP包中就有了消息头（消息来源地址，端口等信息），这样，对于接收端来说，就容易进行区分处理了。 即面向消息的通信是有消息保护边界的。 
对于空消息：tcp是基于数据流的，于是收发的消息不能为空，这就需要在客户端和服务端都添加空消息的处理机制，防止程序卡住，而udp是基于数据报的，即便是你输入的是空内容（直接回车），也可以被发送，udp协议会帮你封装上消息头发送过去。 
不可靠不粘包的udp协议：udp的recvfrom是阻塞的，一个recvfrom(x)必须对唯一一个sendinto(y),收完了x个字节的数据就算完成,若是y;x数据就丢失，这意味着udp根本不会粘包，但是会丢数据，不可靠。

# 补充说明：
用UDP协议发送时，用sendto函数最大能发送数据的长度为：65535- IP头(20) – UDP头(8)＝65507字节。用sendto函数发送数据时，如果发送数据长度大于该值，则函数会返回错误。（丢弃这个包，不进行发送） 
    用TCP协议发送时，由于TCP是数据流协议，因此不存在包大小的限制（暂不考虑缓冲区的大小），这是指在用send函数时，数据长度参数不受限制。而实际上，所指定的这段数据并不一定会一次性发送出去，如果这段数据比较长，会被分段发送，如果比较短，可能会等待和下一次数据一起发送。

2、解决粘包问题

粘包问题的根源在于，接收端不知道发送端将要传送的字节流的长度，所以解决粘包的方法就是围绕，如何让发送端在发送数据前把自己将要发送的字节流总大小让接收端知晓，然后接收端来一个死循环接收完所有的数据。

server：

import socket

sk = socket.socket()
sk.bind(('192.168.12.26',9001))
sk.listen()

conn,addr = sk.accept()

msg1 = b'hello'
msg2 = b'world'

len_msg = len(msg1)
str_len = str(len_msg)
proto_len = str_len.zfill(10)      # 将长度转为十字节
conn.send(proto_len.encode())      # 将长度发送对方
conn.send(msg1)                    # 将内容发送给对方

len_msg = len(msg2)
str_len = str(len_msg)
proto_len = str_len.zfill(10)
conn.send(proto_len.encode())
conn.send(msg2)

client：

import socket

sk = socket.socket()

sk.connect(('192.168.12.26',9001))
for i in range(1000000):2*i                # 制造延迟
len_msg = sk.recv(10).decode('utf-8')      # 接收十字节
len_msg = int(len_msg)                     # 将接收到的字节转换为数字
msg1 = sk.recv(len_msg)                    # 接收发送过来的长度的字节
print(msg1)
len_msg = sk.recv(10).decode('utf-8')
len_msg = int(len_msg)
msg2 = sk.recv(len_msg)
print(msg2)

存在的问题：

程序的运行速度远快于网络传输的速度，所以在发送一段字节前，先用send去发送该字节流的长度，这种方式会放大网络延迟带来的性能损耗。

3、粘包解决方法进阶

（1）、struct 模块

struct 模块可以把一个类型，转换成固定长度的bytes

import struct

ret = struct.pack('i',197274000)
print(ret)

# 能够把一个任意大小的数据 转换成固定的 4个字节  # -2147483648 ~ +2147483647  # 2g

res = struct.unpack('i',b'\x90)\xc2\x0b')
print(res[0])

（2）、使用struct解决粘包

借助struct模块可以把要发送的数据长度转换成固定的字节，这样客户端每次接收消息之前只要先接收这个固定长度字节的内容看看接下来要接收的信息的大小，那么最终接收的数据只要达到这个值就停止了，就能刚刚好不多不少的接收完整的数据了。

<1> 过程：

计算要发送的数据字节长度

把字节的长度编成4字节范围（-2 * * (4 * 8) ~ 2 * * (4 * 8) -1）

发送4字节

发送数据

发送时	接收时
先发送struct转换好的数据长度4字节	先接受4个字节使用struct转换成数字来获取要接收的数据长度
再发送数据	再按照长度接收数据

<2> server：

import struct
import socket

def proto_send(msg):
    msg = msg.encode('utf-8')
    len_msg = len(msg)
    proto_len = struct.pack('i', len_msg)    # 把字节的长度编程4字节,i代表int
    conn.send(proto_len)
    conn.send(msg)

sk = socket.socket()
sk.bind(('192.168.12.26',9001))
sk.listen()

conn,addr = sk.accept()
msg1 = 'hello'
msg2 = 'world'
proto_send(msg1)
proto_send(msg2)

<3> client：

import struct
import socket

sk = socket.socket()

def proto_recv():
    len_msg = sk.recv(4)
    len_msg = struct.unpack('i', len_msg)[0]
    msg = sk.recv(len_msg)
    return msg

sk.connect(('192.168.12.26',9001))
for i in range(1000000):2*i
msg1 = proto_recv()
print(msg1)
msg2 = proto_recv()
print(msg2)

5、文件的传输