学术界关于HBase在物联网/车联网/互联网/金融/高能物理等八大场景的理论研究

引言

文末有交流群可以添加交流

**HBase在互联网领域有广泛的应用,比如:互联网的消息系统的存储、订单的存储、搜索原材料的存储、用户画像数据的存储等,除此之外,在其它领域也有非常多的应用。这得益于HBase海量的存储量及超高并发写入读取量。HBase在09年就开始在工业界大范围使用,在学术界,也有非常多的高校、机构在研究HBase应用于不同的行业,本文主要梳理下这些资料(主要是中文资料,有一些是硕士论文期刊,便于广大读者阅读,特别选择了中文资料),很多都在工业界使用了。 由于涉及到版权,笔者提供链接,不提供资源下载,请大家见谅,可以自行搜索或者下载。感谢各位学者辛苦的研究,也论证了hbase技术在大规模存储的优势,在不同领域的应用场景。

HBase最主要的特性

  • HBase基于HDFS,可以提供廉价的解决方案。在阿里云ApsaraDB for HBase会发布基于D1、I2的物理机方案,存储成本为0.1元每GB每月左右,且可以在线动态添加节点,增加容量。 无需一次性投入全年的量。
  • HBase容量可以无限扩容:在100T的数据量上毫无压力,在1P的数据量上也类似。
  • HBase提供超高的并发量:主要得益于系统的除了Master之外的所有节点都直接跟客户端通信,且系统自动分区。有的系统会有一个路由中心,此会极大的限制并发量及流量
  • 跟Spark、HadoopMR等分析系统结合

关于 阿里云HBase产品的优势见:阿里云HBase优势

行业

物联网行业 & 车联网

  • 基于HBase的海量GIS数据分布式处理实践:设计了一种基于分布式数据库HBase的GIS数据管理系统。系统优化了栅格数据的生成和存储过程,将海量栅格数据直接写入HBase存储、索引。同时,针对矢量空间数据的存储、索引与检索,提出了一种新的rowkey设计,既考虑经纬度,又考虑空间数据类型和属性,使得在按空间位置检索矢量地理信息时,能通过HBase的rowkey迅速定位需要返回的数据。在HBase的集群环境上用真实GIS数据对上述方法进行了验证,结果表明,提出的系统具有较高的海量数据存储和检索性能,实现了海量地理信息数据的高效存储和实时高速检索。
  • 基于 HBase的分布式空间数据库技术:针对在大型地理信息系统(GIS)中,需要对海量矢量数据和栅格数据进行存储并对高并发的用户查询请求提供高效响应,传统的设计方案难以满足需求的问题,提出一种使用基于内存存储的分布式数据库HBase存储空间数据,并设计基于GeoHash的分布式空间索引,实现了矢量空间数据与栅格空间数据的分布式存储与快速查询.实验表明,该方法提升了海量空间数据的查询速度.
  • 基于HBase的大规模无线传感网络数据存储系统: 无线传感网络(WSN)存在分布的跨区域性,随着无线传感网络的扩张,传感器数目增多,将产生大规模的传感数据.针对存储大规模无线传感网络数据的问题,提出了一个两层分布式存储架构,使用分布式数据库HBase存储跨区域的无线传感网络数据和全局数据存储管理目录,实现一个近实时的存储系统.实验结果证明,该系统有良好的扩展性、存储和查询效率.
  • 基于HBase的全天候全域出租车聚集实时监测方法:本发明为基于HBase的全天候全域出租车聚集实时监测方法,公开了一种车辆聚集监测方法。本发明首先将监测区域划分成网格,使用历史GPS数据计算出每个网格出租车数的最大值。然后,实时扫描GPS数据,按时刻截取一段时间的数据进行分析,循环扫描每一个网格,如果某个网格连续n个时刻都大于历史最大值,则观察这n个时刻的车数是否呈递增趋势,如果是则继续计算本时刻是否有一定数量的车和上一时刻相同,成立则说明该网格发生车辆聚集,否则扫描下一个网格。本发明利用出租车GPS数据实时监测每个区域,通过海量的历史出租车GPS和实时数据、HBase数据库、Spark计算框架、数据挖掘方法和最小二乘法构建出了一套快速、准确而有效的实时聚集监测方法。
  • 基于HBase的车联网传感数据管理系统设计 :关系型数据库由于面向行存储以及无法扩展等原因,已很难满足大规模车联网传感数据的存储与查询要求.针对该问题,设计了一个基于非关系型数据库HBase存储的车联网传感数据管理系统.该系统采用Hadoop与HBase搭建分布式实验平台,采用C#语言开发Web网页端.通过与传统关系型数据库SQL Server的存储与查询效率进行对比分析,表明HBase在处理大规模车联网传感数据方面具有明显优势.

交通

  • 面向海量交通数据的HBase时空索引:针对HBase无法直接建立时空索引所带来的交通数据查询性能问题,基于HBase行键设计了面向海量交通数据的HBase时空索引.首先利用Geohash降维方法将二维空间位置数据转化为一维编码,再与时间维度进行组合:然后根据组合顺序的不同,提出了四种结构模型,分别讨论了模型的具体构成以及交通数据查询中的适应面;最后提出了相应的时空索引管理算法及基于Hbase时空索引的交通数据查询方法.通过实验验证了提出的HBase时空索引结构能有效提升海量交通数据的区域查询性能,并比较了四种时空索引结构在不同数据规模、不同查询半径以及不同时间范围的查询性能,量化验证了不同索引结构在交通数据查询中的适应场景
  • 基于HBase的交通数据区域查询方法:随着智能交通的发展,交通数据呈现出指数性增长.为了提升时空区域查询性能,论文提出了一种基于HBase的交通数据区域查询方法HRQ.该方法利用交通数据的三维时空特性,采用Geohash算法将交通数据的经纬度信息转为Geohash编码,然后与时间组合作为HBase行键,并设计了相应的查询算法.实验结果表明,与直接组合经纬度和时间作为行键的方法相比,在基于时间范围的区域查询上HRQ方法的性能要高30%以上,在基于区域范围的区域查询上HRQ的性能优势随着查询区域的增大而增加.
  • 基于HBase的交通流数据实时存储系统:交通流数据具有多来源、高速率、体量大等特征,传统数据存储方法和系统暴露出扩展性弱和存储实时性低等问题.针对上述问题,设计并实现了一套基于HBase交通流数据实时存储系统.该系统采用分布式存储架构,通过前端的预处理操作对数据进行规范化整理,利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中.实验结果表明:该系统与基于Oracle的实时存储系统相比,其存储性能提升了3~5倍;与原生的HBase方法相比,其存储性能提升了2~3倍,并且具有良好的扩展性能.
  • 基于HBase的交通卡口数据存储和查询系统研发:该系统采用分布式架构,前端摄像头传感器以Http协议方式将交通卡口数据发送给Flume分布式采集系统,采集系统对多源异构数据进行分类、聚合规范化整理,然后将不同类型的卡口数据传入到Kafka分布式消息队列中进行数据划分,数据划分中重写了Kafka原有的Partition类,从而更好的实现了卡口数据读取的实时性。Storm分布式实时计算系统从消息队列中获取卡口数据并且完成存储过程,最终将卡口数据写入到HBase集群服务器中。利用Phoenix-client作为HBase之上的Sql层,实现对HBase数据库查询。在保证系统高可靠、高可用的情况下,实现了卡口系统数据的快速写入和读取。

互联网

  • 针对微博信息分析的HBase存储结构设计 :随着互联网的发展,微博对人们生活的影响日益加深。由于微博用户的激增,微博数据量已经非常庞大,且每时每刻都在急速增长。面对这种形势,传统数据库对于海量数据的处理效率已经难以满足需求,于是NoSQL数据库应运而生。文章采用的HBase是目前比较受欢迎的开源NoSQL之一。作为依赖于HDFS分布式存储架构的新型NoSQL数据库,HBase不仅能满足高效的结构化数据存储,并通过Mapreduce实现高效处理,还能存储非结构化数据,为海量数据提供相对灵活的信息存储管理。
  • 基于 HBase 的互联网电视运营分析架构和模型设计 
    随着云时代的来临,互联网电视(OTT TV)业务吸引了越来越多的关注。*建设兵团所处地域辽阔,生产和生活的网络视频化的管理与服务的需求也日益明显。兵团的互联网电视业务在日常运营中会生成并累积大量的用户行为数据。由于不同类型的用户行为数据来自不同的数据平台,数据结构各异且数量庞大,从成本和性能方面考虑,传统的关系型数据库难以出色地完成用户行为分析。为此,本文介绍一种基于Hbase的互联网电视用户行为分析系统架构和模型设计,实现大规模异构行为数据的挖掘分析,为更好的运营兵团地域的互联网电视业务提供解决办法。

电力

  • 基于HBase的配用电海量时序数据存取研究:针对配用电海量时间序列数据,目前南方电网普遍采用关系型数据库进行存储,在技术上使用分库、分区、分表、联合索引等方式进行优化,灵活性、可扩展性、存储量等方面都存在问题.为满足配用电海量时间序列数据的存储要求,分析了关系型数据库优缺点,提出采用分布式数据库HBase构建电力系统数据中心以提高系统性能,并重点分析了HBase数据存储机制及实现方法,最后通过仿真实验进行对比.实验结果表明,基于HBase的配用电海量时间序列数据存取技术在存储及查询操作上具有较大的性能优势.
  • HBase 在智能电网异构数据同步中的应用:未来的智能电网在运行中将会产生海量的多态、异构数据,对这些数据的可靠获取、实时分析、同步及处理会给电网信息系统带来前所未有的压力。因此,把电网大数据迁移到云端—数据中心,来实现异构数据的精准、实时同步则显得尤为必要。以解决未来智能电网大数据处理问题为出发点,通过对电网数据中心相关功能需求进行细致分析,对比传统的关系型数据库建模基础,提出了基于Hbase架构的智能电网数据中心的解决方案。最后通过对比 MySQL 性能进行模拟测试,得出所提出的设计方案能够很好地适用于未来智能电网数据中心的构建以及异构数据的同步,达到电网大数据的实时共享、监测及准确分析、处理的目的,在未来智能电网信息管理系统中具有广阔的应用前景。

金融

  • 基于HBase的金融时序数据存储系统 : 设计并实现了1个基于HBase的金融时序数据的存储系统。设计了基于金融时序数据的HBase预分区策略,可解决HBase存储热点的问题;采用了行键优化策略和基于时序数据的表设计策略,可解决数据存储分散的问题;使用了提供异步处理机制的事件驱动的Netty框架所编写的中间件接收采集器发送的请求,可解决高并发事务的处理问题。实验结果表明,与HBase原生方法相比,该系统的性能在处理高并发事务时更好。

医疗

航空

  • 基于HBase的民用航空发动机大数据管理系统: 为克服传统关系型数据库存储管理海量航空发动机状态监控数据的不足,本研究提出了基于HBase的民用航空发动机大数据管理系统.首先分析了该系统的功能需求,给出了系统整体架构与模块设计,并对关键技术进行了阐述.最后设计试验对比HBase与Oracle的搜索效率.试验结果表明检索结果集较大时HBase的搜索效率明显高于Oracle.本研究中提出的航空发动机大数据管理系统为发动机海量数据的存储管理提供了一种解决方案.

小文件存储(图片视频等)

  • 一种基于HBase的海量图片存储技术针对海量图片存储,已有若干个基于Hadoop的方案被设计出来.这些方案在系统层小文件合并、全局名字空间以及通用性方面存在不足.本文基于HBase提出了一种海量图片存储技术,成功解决了上述问题.本文将介绍基于HBase海量图片存储技术方案,分析其原理及优势,该方案在城市交通监控中得到应用验证.
  • 基于 HBase 的小文件高效存储方法 :基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。

高能物理

  • 高能物理大数据挑战与海量事例特征索引技术研究:一次大型实验即可产生万亿级的事例.传统高能物理数据处理以ROOT文件为基本存储和处理单位,每个ROOT文件可以包含数千至数亿个事例.这种基于文件的处理方式虽然降低了高能物理数据管理系统的开发难度,但物理分析仅对极少量的稀有事例感兴趣,这导致了数据传输量大、IO瓶颈以及数据处理效率低等问题.提出一种面向事例的高能物理数据管理方法,重点研究海量事例特征高效索引技术.

地理

  • 基于HBase的海量地形数据存储:随着遥感技术的发展,遥感数据的类型和量级发生了巨大变化,对于传统的存储方法产生了挑战.针对HBase中海量地形数据管理效率不高的问题,提出一种四叉树-Hilbert相结合的索引设计方法
  • 基于HBase的矢量空间数据分布式存储研究:分析了分布式数据库HBase的存储模型;结合对HBase集群技术的研究,设计了基于HBase的矢量空间数据存储模型和一种基于MapReduce的并行构建网格空间索引方法,使得海量空间矢量数据的网格索引构建分配到各子节点进行,大大加快索引构建的处理速度;最后,利用HBase集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率.

写在最后

更多关于Hbase学术的论文参考:HBase应用 ,或者在 http://xueshu.baidu.com/ 搜索 hbase相关的论文,比如 hbase 传感器
一些HBase其它的资料参考 
HBase全网最佳学习资料汇总:汇总了HBase大部分的资料的连接


HBase技术交流社区 - 阿里官方“HBase生态+Spark社区大群”点击加入:https://dwz.cn/Fvqv066s

上一篇:实现hive proxy2-hive操作hadoop时使用用户的地方


下一篇:大话数据结构—散列表查找(哈希表)