File Format
一个pbf文件通常包括一个文件头和一系列的文件体。这种设计是为了以后文件随机读取,并且跳过不理解或者不需要的数据。
文件格式由以下部分组成:
int4: 以网络字节顺序排列的BlobHeader长度
BlobHeader: 定义如下
message BlobHeader {
required string type = 1;类型
optional bytes indexdata = 2;索引信息(OSM中为bounding box)
required int32 datasize = 3; Blob消息的序列化大小
}
Blob,通过未压缩或者以zlib/deflat进行压缩格式,存储数据blob信息
message Blob {
optional bytes raw = 1; // 不压缩
optional int32 raw_size = 2; // 压缩时解压大小
optional bytes zlib_data = 3; // 数据压缩版本
optional bytes lzma_data = 4;//LZMA数据压缩特征
optional bytes OBSOLETE_bzip2_data = 5 [deprecated=true]; // Don't reuse this tag number.
}
目前OSM数据有两种文件体类型,实际的类型信息存储在BlobHeader的type字段中:
OSMHeader,包含了HeaderBlock信息。在首个OSMData前,每个文件体必须有这些中的一个。
OSMData,包含了序列化之后的PrimitiveBlock信息,包含了实体信息。
这种设计便于用户根据自己的需要扩展类型信息,解析时应当忽略或者跳过无法识别的类型。
OSMHeader文件块定义:
message HeaderBlock {
optional HeaderBBox bbox = 1;//bounding box
/* 解析数据集附加标签说明 */
repeated string required_features = 4;
repeated string optional_features = 5;
optional string writingprogram = 16;
optional string source = 17; // From the bbox field.
/* Tags that allow continuing an Osmosis replication */
// replication timestamp, expressed in seconds since the epoch,
// otherwise the same value as in the "timestamp=..." field
// in the state.txt file used by Osmosis
optional int64 osmosis_replication_timestamp = 32;
// replication sequence number (sequenceNumber in state.txt)
optional int64 osmosis_replication_sequence_number = 33;
// replication base URL (from Osmosis' configuration.txt file)
optional string osmosis_replication_base_url = 34;
}
为了提供前后兼容性,解析器需要知道文件能否被解析。判断能否被解析是通过required features(必须要素)实现的,如果一个文件的必须要素中包含了解析器无法识别字段,则该文件无法解析,返回错误信息,并报告无法解析字段。
目前已定义的要素有:
OsmSchema-V0.6:OSM v0.6标准的数据
DenseNodes:文件包含密集节点和密集信息
HistoricalInformation:文件包含OSM历史信息
OSMData文件块定义:
message PrimitiveBlock {
required StringTable stringtable = 1;
repeated PrimitiveGroup primitivegroup = 2;
optional int32 granularity= 17[default=100];//坐标存储精度
optional int64 lat_offset = 19 [default=0]; // 坐标偏差.
optional int64 lon_offset = 20 [default=0];
// 时间精度
optional int32 date_granularity = 18 [default=1000];
// Proposed extension:
//optional BBox bbox = XX;
}
创建PBF文件时,需要提取所有的字符串(key,value,role,user)到单独的string table中。
一个PrimitiveGroup不会包含不同种类的对象。可以包含Node、DenseNode、Way、Relation、ChangeSet信息,但是不能同时包含两种及以上。