企查查支撑8000万+企业数据的大数据平台技术选型与实现

11+大数据行业应用实践请见https://yq.aliyun.com/activity/156,同时这里还有流计算、机器学习、性能调优等技术实践。此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps;更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data 。

企查查是苏州朗动网络科技公司旗下的一款核心企业信息查询工具,立足于企业征信的相关信息整合,经过深度学习、特征抽取和使用图构建技术,为用户提供全面、可靠、透明的数据信息。企查查是最早一批的在线企业信息查询工具,早在2014年*总理说要开放国家工商大数据库的时候,企查查最早抓住了这一批数据,通过互联网技术以及通过自身的分析能力建立了大数据平台,从而为用户提供企业信息查询服务。企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。

通过企查查,用户能够实时查询企业相关的工商登记信息,年报,股东信息,投资人信息,涉诉,失信,拥有商标,知识产权,企业证书,主要人员信息,变更记录等信息。企查查用户人群囊括金融、征信、法律、行政等行业,被众多法律界和金融界人士、求职者以及*部门高度认可和广泛使用。目前企查查登陆注册用户总数已经突破1800万,部分产品及服务已经上架阿里云数据市场,很受客户欢迎。

企查查的数据分析挑战

企查查通过构建大数据平台,提供给用户在线查询、在线分析以及全方面的企业画像功能,从而让用户方便快捷的查询企业全方位多维度的信息。企查查在业务快速发展过程中面临以下挑战:

1.数据量爆发式增长。企查查最早成立的时候采用单机的架构,使用的是SQL  Server关系型数据库,当时的数据量大概在一两千万条数据,起初SQL Server能够满足计算及查询分析的需求。后来,随着业务的快速增长,企业数据已经达到九千万条,并且企业的相关数据已经达到将近十亿条的规模,在这个情况下,原来的关系型数据库已经无法满足需要,迫切需要大数据平台的支撑。

2.大并发量、大数据量查询的快速响应能力。“在早期的时候,当用户并发量达到每秒一千的时候,数据库就直接瘫痪掉了。”企查查创始人兼CTO陈德强回忆道。作为企业信息查询服务提供商,查询能力必然是企查查的核心服务能力,因此选用高性能大数据平台的迫在眉睫。
3.“找关系”,企业与人、企业与企业之间复杂的关系分析。“企查查拥有八千多万家企业数据,每家企业有大量的股东,高管,那么怎么样通过数据分析把他们之间的关系找出来,之前企查查通过关系型数据库去逐个逐个的搜索,逐个逐个的写代码,非常复杂而且响应非常慢。” 陈德强说道。

4.数据安全不可控。企查查之前采用自建的方式搭建大数据平台,数据安全存在以下问题:依然会遇到一些数据泄露或者数据问题;使用自己的服务器、自己的机房,也会遇到一些瓶颈,如突发事件怎么去处理,那个机房、那个服务器被攻击了,安全出现问题怎么解决等;遇到大规模并发攻击时素手无策,“我们之前也遇到过大规模并发攻击:在早期的时候,我们使用的服务器不多,但是并发量在瞬间就达到了原来的50倍,那时候我们服务器直接就瘫痪掉了,由于自己的服务器、机房没办法快速扩容,我们只有干巴巴的在那里等。”陈德强描述道。

5.弹性可扩展。面对偶发性的数据量及计算量激增的情况,自建方式很难快速低成本的进行按需购买及弹性扩容。

企查查的技术选型思考

之前,企查查使用自建机房的方式搭建大数据平台,在无锡自己的机房中购买了将近20台服务器,然后搭建了整套的Hadoop环境。当时,会遇到各种各样的问题,包括扩容和计算能力不足等问题。数据量大的情况下企查查对计算性能的要求较高,但是之前遇到的一个复杂模型的计算分析,需要大量的时间,这种情况下如果在自己机房里面进行扩容,需要自行购买机器,时间成本及费用非常之高,难以承受。之后,当企查查将这块功能移到数加平台上之后,直接通过数加平台的可扩容机制,通过弹性计算很快的就把原来需要将近一个星期的计算缩短到一个小时内完成,解决了原来线下没法完成的工作。因此,自建的机房已经是很难去满足企查查的业务弹性需求,而阿里云数加平台能够满足这块的需求。

另外,阿里云数加平台作为一站式的大数据平台,还帮助企查查解决了数据仓库的问题,企查查的数据分散在各个不同数据库里面,有MySQL、SQL Server、MongoDB等,通过数加的数据汇总,将各个平台的数据全部汇总到数加的数据中心里面,之后再通过数加的业务分析功能,将这些数据根据业务模型及业务需求进行离线计算,分析出结果存入到业务数据库中。数加平台还引入了各种算法,包括人工智能的算法、图形算法等,帮助企查查进行数据分析使用。这些功能如果是自行开发的方式,需要大量的人力投入,而通过数加平台能够很快的使用提供的接口,很快就能实现这些功能,包括企业画像功能,也是使用数加的接口实现的。

企查查的大数据平台架构

企查查基于企业征信的相关信息整合,经过深度学习、特征抽取和使用图构建技术,为用户提供全面、可靠、透明的数据信息,可通过SaaS服务或API的方式提供给用户使用。企查查的大数据平台架构如下:

企查查支撑8000万+企业数据的大数据平台技术选型与实现

  • 数据源:互联网爬取数据、第三方合作数据。部分数据更新任务为用户触发。
  • 数据抓取:通过网络爬虫爬取数据并进行初步的清洗并入库,
  • 数据存储与处理:数据入库后存放在MongoDB、RDS(MySQL)中,然后数据同步到数加平台大数据计算服务MaxCompute中进行离线计算和算法处理,处理结果再同步到RDS(MySQL)中。通过开放搜索(Open Search)连接到RDS(MySQL)提供查询搜索服务。
  • 数据使用:以API的方式提供数据服务。

收益


1. 阿里云数加平台的分布式计算框架,不仅仅能够存储海量数据,还具有分析挖掘的功能,解决了企查查之前普通关系型数据库没法解决的一些技术问题。阿里云数加支持超大规模计算及存储,最大可达EB级别,企查查可以从容应对数据量的爆发式增长。


2. 使用阿里云数加平台之后,通过MaxCompute进行离线计算,同时把计算结果推送到缓存数据库,目前最大可以支撑每秒钟五千次并发,用户使用企查查时,只要输入任意一个关键字,在0.01秒之内就可以返回结果,通过数加平台帮助企查查解决了查询性能的问题。


3.“众里寻他”不再是难题,通过阿里云数加平台,仅需0.01秒就可以从8000万家企业数据中计算出企业与企业之间,企业与人之间复杂的关系,数加平台帮助企查查解决了关系分析的问题。


4. 阿里云数加平台的企业级数据安全控制,让企查查“安枕无忧”。数加平台建立在安全性在业界领先的阿里云上,并集成了最新的阿里云大数据产品,这些大数据产品的性能和安全性在阿里巴巴集团内部已经得到多年的锤炼。数加平台采用了先进的“可用不可见”的数据合作方式,并对数据所有者提供全方位的数据安全服务,数据安全体系包括:数据业务安全、数据产品安全、底层数据安全、云平台安全、接入&网络安全、运维管理安全。“很多数据行业创业公司,他们觉得数据就是企业的资产,因此不愿意把数据放到阿里云上面,因为他们觉得放到阿里云上可能没那么保险,但是我觉得对于创业公司,自建机房和阿里云比起来,阿里云还是更安全。当遇到突发的安全问题,通过阿里云能很容易解决掉,因为阿里云有一整套安全体系。”陈德强说到,“迁移到阿里云之后,当遇到大并发量攻击后出现流量暴涨的时候,我们很快就通过扩容服务器把这个问题解决掉了,对于初创公司,为了应付未来的业务的快速增长,用云平台比自己服务器要更加的可靠,更加的有发展空间。”


5. 阿里云数加平台的弹性有力的支撑了企查查业务的灵活和敏捷性。数加平台最大程度减少了运维,即开即用,避免资源浪费,并且可以最经济的对大数据资源进行调整,灵活快速的响应市场和业务需求变化。


上一篇:年服务人次3300万+,网鱼网咖的大数据挑战及架构


下一篇:金三银四话人才——关于技术团队的人才观(上)