目录
1.万维网简介
1990年,Tim Berners-Lee在欧洲粒子物理实验室(CREN)实现了万维网(WWW)的原型系统。Tim认为万维网是一个包含相互链接的超文本文件系统,这些文件可以通过互联网访问。为此,他设计了超文本标记语言(HTML)用来书写万维网中的文件。为了统一地标识万维网中的文件,Tim提出了通用文件标识符(UDI),后来UDI演变为统一资源定位符(URL),逐渐地URL被统一资源标识符(URI)代替。URI可以标识任何资源,由于URI被限制在ASCII字符集的一个子集,因此,国际化资源标识符(IRI)被提出,IRI可以容纳通用字符集,其中包含汉字等。为了让互联网用户能够按照一种规范的方式访问万维网中的文件。Tim及其合作者设计了超文本传输协议(HTTP)。HTTP是一种建立在TCP之上的应用层协议,是一种请求/响应式协议。一个Web站点(网站)是指互联网上的某个计算机系统,实现了HTTP服务端接口,并提供诸多网页,包括HTML文件以及其他可访问的文件,供互联网用户使用Web浏览器来查看。而一个浏览器不仅需要实现HTTP客户端接口,而且能够对接收到的网页按照其格式展现出来。1990年底,Tim在CREN实现了第一个浏览器和第一个HTTP服务器软件,并开发了世界上第一个网站,这也标志着万维网的诞生[4]。
作为互联网上的一个分散式信息系统,万维网具有跨平台和开放等特性,并具优异的易用性和易扩展性,使得万维网很快发展成为人类有史以来最庞大的超媒体信息系统。
2.语义网简介
经典的万维网是一个相互链接的超媒体文件系统,计算机难以理解这些文件中的内容,从而难以复用和集成万维网中的数据来提供更有用的信息服务。W3C于2001年开始建立语义网(Semantic Web),共同开发一套技术规范,使得符合语义网技术规范的数据容易地被计算机理解,让不同的应用之间能够更方便地共享和复用彼此的数据[4]。也就是说,语义网提供数据的共享和交换,而万维网只有文档的共享和交换。下图是W3C给出的语义网技术栈[6]。
语义网以资源描述框架(RDF)为基石。RDF是一个公共的数据模型,以三元组为数据单元来描述资源的类型和属性。一个RDF三元组由主语、谓语和宾语组成。URI可以出现在三元组中的任何位置,空白节点不能作为谓语,空白节点只能作为局部的资源标识,不具备URI的全局标识能力。字面量只能作为宾语出现,通常表示基本类型的数据,如字符串、实数等。
本体(ontology)在语义网中扮演重要的角色。在信息技术领域,本体的概念被用在知识表示上,一个本体是一个共享概念模型的显示的形式化规约。在语义网中,RDF数据中使用到的类型和属性也需要给出一个明确的形式化规约,只有这样,应用程序才能理解数据的含义。通常,某个应用领域中一组相关的类和属性称为一个词汇表。W3C在语义网技术体系中采用本体来规约词汇表。为此,W3C开发了RDF Schema和OWL(Web本体语言)。各个机构可以使用RDF Schema或OWL表示各自领域的本体,发布在万维网上共享。领域本体中的类型和属性可以描述事物及其联系,形成RDF数据。RDF Schema和OWL均定义了若干推理规则,运用推理技术使得信息提供者不必对所有信息全部罗列出来。
3.知识图谱简介
知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,将信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解海量信息的能力,是人工智能实现真正意义的理解、记忆与推理的重要基础。
知识图谱由节点和边组成,节点可以是实体或抽象的概念,边可以是实体之间的关系或者实体的属性。知识图谱早期理念来自语义网,其最初理想是把基于文本链接的万维网转化成基于实体链接的语义网[5]。
1989年,Tim Berners-Lee提出构建一个全球化的以“链接”为中心的信息系统,任何人都可以通过添加链接把自己的文档链入其中。1994年,他又提出Web不应该仅仅是网页之间的链接。网页中描述的是现实世界中的实体和概念,蕴含着语义信息,不同网页上的语义信息是隔离的,机器无法有效地从网页中识别这些语义。1998年,Tim Berners-Lee提出了语义网概念,语义网仍然基于图和链接的组织方式,只是图中的节点代表的不只是网页,而是客观世界中的实体和概念,而超链接也被增加了语义描述,表明实体之间的关系。语义网的本质是数据的互联网。
2012年谷歌发布了知识搜索产品——谷歌知识图谱,提出“Things,Not Strings”理念。由于“知识图谱”这个名字贴切上口,被学术界和工业界广泛使用,成为各类结构化知识库的统称[1]。知识图谱可看作是语义网的一种简化后的商业实现[5]。知识图谱将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力[2]。知识图谱是人工智能研究和智能信息服务的基础核心技术,能赋予智能体精准查询、深度理解与逻辑推理等能力,被广泛应用于搜索引擎、问答系统、智能对话系统及推荐系统等任务[1]。
知识图谱属于人工智能重要研究领域——知识工程的研究范畴,是利用知识工程建立大规模知识资源的一个杀手锏应用[2]。20世纪50年代,基于规则的理想主义思想在自然语言处理领域盛行。1970年,人们提出专家系统,其基本思想是:专家是基于大脑中的知识来决策的,因此人工智能的核心应该是用计算机符号表示这些知识,并通过推理机模仿人脑对知识进行处理。20世纪90年代,研究者认识到简单语言规则的堆砌无法实现对人类语言的真正理解。在大数据时代,通过对从大规模数据的自动或半自动学习和统计,深度学习在视觉、听觉等感知处理中取得突破性进展,使得人工神经网络获得了人工智能研究的核心地位。
数据驱动的经验主义思想是实现数据智能的可行路径,以深度学习为代表的经验主义思想,在处理感知、识别和判断等方面表现突出,能够帮助构建聪明的人工智能,但在模拟人的思考过程、处理常识知识和推理,以及理解人的语言方面仍然举步维艰。为此,我们需要探索如何充分发挥实现经验主义思想和理性主义思想的优势,融合数据智能和知识智能。以自然语言处理为例,目标就是更好地将结构化知识图谱融入自然语言处理深度学习模型中[1]。
4. 参考文献
[1]《知识图谱与深度学习》.刘知远, 2012.
[2]《知识图谱发展报告2018》,中国中文信息学会.
[3] A survey on knowledge graphs: representation,acquisition and applications. 2020.
[4]《语义网技术体系》
[5]《知识图谱:方法、实践与应用》第2章,2019
[6] https://www.w3.org/2007/Talks/0130-sb-W3CTechSemWeb