阿里云HBase Ganos在海量实时轨迹中的应用(一)

场景需求

在移动对象轨迹监控与分析的项目中,收集了数十万的车辆信息,每个车辆会定时的上报当前位置、事件、状态等信息,每天约数亿条轨迹点,需要能够存储。且前端用户在查询时,要能快速返回目标船舶的信息。

入库需求:

轨迹数据,每日新增10亿条左右,包括时间点、经纬度坐标、对象当前的属性信息
基本不涉及到数据的修改(不断的追加数据)

查询需求:

  • 区域回放:根据时间和空间范围两个维度共同查询。例如:查询东经110°~120°,北纬25°~35°空间范围内,2019.3.1~2019.3.10时间范围内的所有轨迹点。
  • 轨迹线查询:根据某个移动对象的id,查出某段时间内的轨迹。例如:查询编号为"205073000"的船舶在2019.3.1~2019.3.10时间范围内的所有轨迹点。

要求:

  • 要能支撑每日10亿量级的写入,要能承载千亿轨迹规模的存储
  • 时空查询(区域回放)要能在秒级响应,轨迹线查询要能在百毫秒级响应

技术调研

关系型数据库

现有的关系型数据库如Oracle、MySQL、PostgreSQL都提供了Spatial的插件,尤其是PG的空间引擎PostGIS,使用率较高,具有丰富的空间处理算法,适合做空间关系判断与分析等。但众所周知,关系型数据库的强项在于OLTP,即适合数据更新、查询等,但对于大规模数据的存储则需要分库分表等操作,操作相对繁琐,因此对于上述需求来说,暂不考虑关系型数据库。(这里提一下,除了阿里云PG Ganos外,都没有时空处理)

NoSQL数据库

NoSQL适合处理海量数据的存储与查询,如Cassandra、HBase、MongoDB、Redis等,都支持海量数据的水平扩展。但在时空方面都没有一个完善的方案,比如MongoDB、Redis虽然都提供了空间处理的算法,但总体来说只能实现Within等操作,即空间范围查询操作。

阿里云已经发布了基于HBase的时空引擎HBase Ganos(参考:https://help.aliyun.com/document_detail/87287.html?spm=a2c4g.11174283.6.619.3c693c2e29oyDM),不仅可以处理空间查询,还可以处理时空查询场景。因此,本文基于HBase Ganos时空引擎对上述场景进行测试。

实例规格

HBase Ganos具有高吞吐特点,本着节省的原则,我们以最小规格配置为基础(约2000元+/月,成本与HBase相同),来看看是否能够支撑上述需求。具体配置如下:

  • master节点:2核4G
  • core节点:4核8G(数量可动态扩展)
  • 磁盘:高效磁盘(500G,可动态扩展)

具体实施

访问接口

HBase Ganos支持RESTful和GeoTools两种接口访问形式,前者通过HTTP协议可以方便的使用任何一种编程语言访问;而GeoTools接口基于Java语言,较为通用。本文采用该接口方式,这里封装了一个Ganos Client工具,可以直接下载使用(附案例代码连接)

数据模型表

通过GanosSchemaUtil工具类创建SimpleFeature(Point类型),并添加了对象id(为其建立索引)、速度、事件、状态、时间(默认建立索引)等信息,具体如下:

GanosSchemaUtil ganosSchemaUtil = new GanosSchemaUtil();
ganosSchemaUtil.addField("objId", "String", true);  
ganosSchemaUtil.addField("speed", "Double", false);
ganosSchemaUtil.addField("event", "Integer", false);
ganosSchemaUtil.addField("status", "Integer", false);
ganosSchemaUtil.setGeometry("Point", null);
ganosSchemaUtil.setDate("dtg");
SimpleFeatureType sft  = ganosClient.createSFT(schemaName, ganosSchemaUtil.toString(),"zstd");
ganosClient.createSchema(sft);

数据构造

上述字段的值采用随机生成方式(按照真实数据规则模拟),数据构造方法为:

  • 时间窗口:2019-02-25 00:00:00~2019-03-05 00:00:00
  • 空间窗口:经度范围 115.37465076~120.37465076, 纬度范围:26.23923772~31.23923772
  • 移动对象数量(可理解为车、船的数量):100万
  • 其他属性数据:速度、状态、事件等,均采用随机生成方式

数据导入

启动10个线程并发写入
导入方法:

  • 启动10个线程写入,每次批量写入1000条。
  • 这1000条数据中,随机选取多个移动对象,同时随机生成该移动对象的时间点、空间位置以及其他属性信息。比如这1000条轨迹点可属于N个对象,每个对象的轨迹点个数也不相同。
    代码参考:

数据查询

  • 启动10个线程查询,查询场景包含两种:a、区域回放(时空查询);b、单条轨迹查询(id+时间)
  • 每次从一百万个移动对象中随机选取一条,同时随机选取查询的时间窗口,考察系统吞吐、RT等
    代码:参考

性能

  • 写入性能:存储层的IO可达8万+/s,在构建三张索引表的情况下,可理解为每秒能支撑3万个轨迹点的导入,完全能够满足一天10亿级的写入需求。

阿里云HBase Ganos在海量实时轨迹中的应用(一)

  • 查询性能:
    区域回放(时空查询):每次查询返回数据量在几百条左右,缓存为命中情况下,耗时在1秒钟以内;若缓存命中情况下,在100ms左右。

轨迹线查询:每次返回数据量在几百条左右,耗时在800ms以内。

总结

HBase Ganos不仅能够支持空间查询、还能够支持“时间+空间”的查询,以及轨迹线(时序)查询。在2个4核8G的节点配置下,能够支撑每日10亿量级的数据写入,且性能维持在秒级以下,适合海量轨迹的存储和查询场景。

上一篇:Oracle 数据库 - 使用UEStudio修改dmp文件版本号,解决imp命令恢复的数据库与dmp本地文件版本号不匹配导致的导入失败问题,“ORACLE error 12547”问题处理


下一篇:Oracle 常见的33个等待事件