1. struct二进制数据结构
struct模块包括一些函数,这些函数可以完成字节串与原生Python数据类型(如数字和字符串)之间的转换。
1.1 函数与Struct类
struct提供了一组处理结构值的模块级函数,另外还有一个Struct类。格式指示符将由字符串格式转换为一种编译表示,这与处理正则表达式的方式类似。这个转换会耗费一些资源,所以创建一个Struct实例并在这个实例上调用方法时(不是使用模块级函数)只完成一次转换,这会更高效。下面的例子使用了Struct类。
1.2 打包和解包
Struct支持使用格式指示符将数据打包(packing)为字符串,另外支持从字符串解包(unpacking)数据,格式指示符由表示数据类型的字符和可选的数量及字节序(endianness)指示符构成。
在下面的例子中,指示符要求有一个整型或长整型值、一个两字节字符串以及一个浮点数。格式指示符中包含的空格用来分隔类型指示符,并且在编译格式时会被忽略。
import struct
import binascii values = (1, 'ab'.encode('utf-8'), 2.7)
s = struct.Struct('I 2s f')
packed_data = s.pack(*values) print('Original values:', values)
print('Format string :', s.format)
print('Uses :', s.size, 'bytes')
print('Packed Value :', binascii.hexlify(packed_data))
这个例子将打包的值转换为一个十六进制字节序列,以便用binascii.hexlify()打印,因为有些字符是null。
使用unpack()可以从打包的表示中抽取数据。
import struct
import binascii packed_data = binascii.unhexlify(b'0100000061620000cdcc2c40') s = struct.Struct('I 2s f')
unpacked_data = s.unpack(packed_data)
print('Unpacked Values:', unpacked_data)
将打包值传入unpack(),基本上会得到相同的值(注意浮点值中的微小差别)。
1.3 字符串
默认地,值会使用原生C库的字节序(endianness)来编码。只需在格式串中提供一个显式的字节序指令,就可以很容易地覆盖这个默认选择。
import struct
import binascii values = (1, 'ab'.encode('utf-8'), 2.7)
print('Original values:', values) endianness = [
('@', 'native, native'),
('=', 'native, standard'),
('<', 'little-endian'),
('>', 'big-endian'),
('!', 'network'),
] for code, name in endianness:
s = struct.Struct(code + ' I 2s f')
packed_data = s.pack(*values)
print()
print('Format string :', s.format, 'for', name)
print('Uses :', s.size, 'bytes')
print('Packed Value :', binascii.hexlify(packed_data))
print('Unpacked Value :', s.unpack(packed_data))
根据下表,格式字符串的第一个字符可用于指示打包数据的字节顺序,大小和对齐方式:
字符 |
字节顺序 |
大小 |
对齐方式 |
---|---|---|---|
|
按原字节 |
按原字节 |
按原字节 |
|
按原字节 |
标准 |
无 |
|
小端 |
标准 |
无 |
|
大端 |
标准 |
无 |
|
网络(=大端) |
标准 |
无 |
1.4 缓冲区
通常在强调性能的情况下或者向扩展模块传入或传出数据时才会处理二进制打包数据。通过避免为每个打包结构分配一个新缓冲区所带来的开销,这些情况可以得到优化。pack_into()和unpack_from()方法支持直接写入预分配的缓冲区。
import array
import binascii
import ctypes
import struct s = struct.Struct('I 2s f')
values = (1, 'ab'.encode('utf-8'), 2.7)
print('Original:', values) print()
print('ctypes string buffer') b = ctypes.create_string_buffer(s.size)
print('Before :', binascii.hexlify(b.raw))
s.pack_into(b, 0, *values)
print('After :', binascii.hexlify(b.raw))
print('Unpacked:', s.unpack_from(b, 0)) print()
print('array') a = array.array('b', b'\0' * s.size)
print('Before :', binascii.hexlify(a))
s.pack_into(a, 0, *values)
print('After :', binascii.hexlify(a))
print('Unpacked:', s.unpack_from(a, 0))
Struct的size属性指出缓冲区需要有多大。