3月29日,2017年中国慢性病与信息大会在北京国际会议中心召开,大会上,北京大学软件研究所研究员/北京因特睿软件有限公司副总裁董艳发表了主题为《数据功能开放管道——助力*数据资源共享交换和融合应》的演讲。
北京大学软件研究所研究员/北京因特睿软件有限公司副总裁 董艳
以下为现场演讲实录:
大家好,我是来自北京大学的研究员,也是北京大学软件所大数据软件产学研转化单位,北京因特睿公司的代表。先面领导和专家对大数据综合试验区的顶层规划提出的设想,我分享的是创新的关键技术,通过这个关键技术我们是如何来助力*资源、数据资源的开放和共享。
我的汇报交流包括如下四个方面,首先,跟大家共同探讨的一个问题就是,*数据共享交换和融合应用的最有效方式,通过数据API的方式进行数据共享交换和融合应用。数据共享交换的几种模式,从模式上看,四种模式,从第一和第二种模式肯,通过对底层的数据库,相当于把数据库里的数据通过一些数据网关,将这些有用的数据导到共享的数据池。通过数据池的编程,通过接口,来提供给各个其他的系统使用。第三种和第四种模式获取数据的方式发生了变化,第三种模式还是同样通过数据API的方式,将业务系统访问数据的形式用数据API的形式进行封装,也是通过API将数据获取过来,然后放到标准的数据池里。还是通过池子,还为其他的业务系统提供服务支持。第四种模式则不用这个池子,是通过建设数据API的管道,像自来水一样,原业务系统数据资源就相当于水源,数据API相当于管道。通过这些管道将水源源源不断地获取出来,然后通过我们的标准API转化就可以使目标的系统使用到原来的水池里的新鲜的、有活力的数据。因此从效益上讲,用数据API数据接某的方式来实现数据的共享和交换,应该是最有效的方式。
从安全的角度讲,从打开底层数据库,数据库里所有的数据对于开发者来讲就是一个公开的,对于安全来讲存在一定隐患。对于第三、第四种方式,通过数据接口的方式,通过建立权限限制了数据的访问,安全方面也是提高了。数据应用接口的方式直接有效、最安全。那为什么没有广泛普及出来?是因为我们在传统的方式进行数据API的生成离不开原厂商的配合,离不开原数据库的开放。我们各行各业都开发积累了大量的、管用的、可靠的信息系统。这些信息系统年代不一、架构不一,各有特色。由于时间不一样,原厂商可能是不存在的,也有可能原代码也找不到,这就制约了数据API的形成。
下面我介绍一下北大突破性的技术,燕云技术。它可以在没有原厂商的配合,也无需源代码的情况下就可以智能、主动地生成,重建出这些数据的访问API接口。它是通过我们在网购软件的过程中,北京大学软件所,他们在研究网购软件的新范型、新模式。研制过程中突破了体系结构重建的技术,就可以在软件系统在底层运行的过程中,通过我们的一些机器学习的算法,就可以能够跟踪用户使用的交互逻辑。从内存中分析出他业务的逻辑,从而重新构建出他底层的代码形式,把他相应的数据房的接口重新构建出来。通过实现了这个逻辑我们可以看到,我们在重新生成业务系统的应用层面的接口的同时,是不需要原厂商配合,不需要源代码,数据库开发。
有了烟云DaaS技术以后,我们能用各地业务系统、跟进系统,能够智能地生成一个个的数据管道和功能的开放管道,可以为这些管道提供高效的运行引擎,可以跟踪它数据流向的安全监管。这种生成接口的方式与原系统架构无关,无论是BS、CS等层面,都可以将数据访问接口重新构造出来。通过构造出来的接口还可以以微服务的方式进行发布,可以独立运行于原应用系统用,不改变原业务系统的运行模式。这样对原系统是无侵害,也是无干扰的。
有了烟云DaaS的技术我们能做什么?下面我要跟大家分享的就是用烟云数据API的技术,来实现*数据共享交换。第一个例子就是我们在贵阳进行的活化数据目录的建设。下面分享一下我们是怎么样实现*数据资源目录的活化、梳理和建设,*资源数据目录的梳理是共享交换的前提。梳理的是从业务层面,到底有哪些业务线,业务项包含哪些数据项,和其他委办局的数据项有什么相互的关系,这才是进行政务数据资源目录梳理的目标。要知道数据在哪,关系是什么。而且这种数据一定是建立在数据业务的层面上,而不是底层数据库。
常规目录梳理方式是自己向上的,打开底层数据库,根据数据库表,与我们业务项进行对照,来梳理数据目录。在向上的过程中很可能遇到很多的问题,格式不一样都是很普遍的。更糟糕的是,数据中心掌握了很多的数据库,数据库表也知道。但是它对业务系统,从业务系统来讲,这几个数据库表对应业务是哪一项,对业务不了解是怎么梳理,这也是通常进行目录梳理的时候遇到很困难的一个方面。常规方法梳理都是需要1-2年的时间进行梳理。而且在梳理的过程中需要交互部门也是很多的,在各个阶段都需要多个部门进行配合。梳理以后可以对数据采集,还要专门进行数据表的对接,意义相当大。
我们基于烟云DaaS的方面,由于技术的特殊性,可以从业务系统的业务层面来梳理数据结构和数据之间的关系。我们数据的梳理称之为活化的数据目录梳理,为应用提供程序化的共享和开放。活化首先是字典的生成就是活化的,活灵活现的,从业务层面就可以获取到各个数据项、业务项的的数据字典描述,从内存里获取业务字典的定义。我们通过原数据的标准将原数据的目录描述和转换方式按照标准的格式进行转化,这个转化也系自动生成的,这是活灵活现地可以生成数据字典。这是第一个活。
第二个活,我们是活动的数据获取。接口升成出来就可以生成数据源,将数据实时获取出来。
第三个活,由于我们的数据目录编目方式可以进行灵活构建,灵活构建数据编目目录。
第四个活,接口是程序化提供,可以按需、按约来访问到相应数据,所以服务也是灵活的。
做的过程中协调的部门也没有那么多,只需要业务部门和技术部门相配合就可以,有很多的动作都是自动平衡的。由于我们自己的独特性,我们在贵阳活化目录建设中它的效率是十分惊人的。不到一个月的时间,我们就完成了51家单位的全量数据目录的活化处理工作。完成了223个业务系统,2000多个功能事项,以及800多个数据目录的梳理工作。后续我们也计算了一先,生成活化数据管道的效率平均一天4个左右。
有了DaaS以后,还可以进行管道式数据共享交换。原来的共享交换模式可以用管道方式进行,把数据源还是放在原有的系统,通过API接口就可以不断地给系统提供信息服务。可以同时通过体主机库的建设,分别有不同的数据汇聚,可以通过接口方式程序化定制。
不仅能形成读数据接口,还可以形成洗数据的接口。在综合服务大厅的业务处理系统整合上,我们也能提供有效的方案。原来要分别录入相关的信息,而且我们建设以后,可以通过一次录入同步写入到其他的系统里,这样形成信息的自动流转。我们效率是很高的,拿深圳平山新区来讲30天完成90个部门,33个系统,336个受理事项的接口生成,不需要相互的配合就能完成。
通过烟云DaaS,构建出一个水网也好、电网也好,就可以把数据流动起来,让所有的数据重建、重生,进而实现扩展和应用。