知识图:从图和数据库中获取知识

知识图:从图和数据库中获取知识

知识图到底是什么,以及关于它们的所有炒作是什么?如果想成为世界各地的Airbnbs,Amazon,Google和LinkedIn,那么学会区分真实的炒作,定义不同类型的图以及为用例选择合适的工具和数据库至关重要。

知识图被炒作。现在可以正式地说这句话,因为Gartner在2018年对新兴技术的炒作周期中包括了知识图。尽管不必等待Gartner-将其宣布为“图表年”是在2018年的揭幕战。像在该领域活跃的任何人一样,看到了机遇和威胁:伴随着炒作而来的是混乱。

知识图是真实的。至少已经过去了20年。知识图在其原始定义和化身中一直与知识表示和推理有关。诸如受控词汇表,分类法,模式和本体之类的东西都是基于标准和实践的语义Web基础构建的。

Planet Analytics 1.0:从UN联合实验室到全球

为什么这样的人制作的Airbnb亚马逊谷歌LinkedIn尤伯杯Zalando在其核心业务的运动知识图?亚马逊微软如何通过最新产品加入图数据库供应商的组织?以及如何运营这项工作?

知识图很酷之前

知识图听起来很酷。但是到底是什么呢?这听起来像是一个幼稚的问题,但实际上正确定义定义是如何构建知识图。从分类法到本体-本质上是复杂性各异的方案和规则-多年来人们一直在这样做。

RDF是用于编码这些模式的标准,具有图结构。因此,将编码在图结构顶部的知识称为“知识图”听起来很自然。从事这种工作的人,即数据建模人员,被称为知识工程师或本体专家。

此外:AWS Neptune即将release发布GA:图形数据库用户和供应商的好,坏和丑陋

Planet Analytics 1.0:从UN联合实验室到全球

那么,有什么变化?为什么这样的人制作的Airbnb亚马逊谷歌LinkedIn尤伯杯Zalando在其核心业务的运动知识图?亚马逊微软如何通过最新产品加入图数据库供应商的人群?以及如何使这项工作?

通过基础架构规划避免5G部署陷阱

5G将对的数据基础架构产生越来越多的新需求,因此现在是规划部署的时候了。

由Vertiv赞助 

这些知识图可能有许多应用程序-从分类项目到数据集成和在Web上发布,再到复杂的推理。对于一些最著名的网站,可以查看schema.org,Airbnb,Amazon,Diffbot,Google,LinkedIn,Uber和Zalando。

因此,知识图现在处于新兴技术的炒作周期中。对于拥有20多年历史的技术来说还不错。

知识图:从图和数据库中获取知识

 

 图片:Gartner)

像任何数据建模一样,这是艰巨而复杂的工作。它必须考虑到许多利益相关者和世界观,管理出处和架构漂移等。加上混合推理和Web扩展,事情很容易失控,这也许可以解释为什么直到最近,这种方法在现实世界中还不是最流行。

另一方面,无模式已经很流行了。无需模式即可快速入门。它至少在一定程度上更简单,更灵活。不过,不使用模式的简单性可能会让人感到欺骗。因为最后,无论使用哪个域,都将存在一个架构。阅读模式?精细。但是根本没有架构吗?

用于数据库的GraphQL:通用数据库访问层吗?

可能对先验知识不够了解。它可能很复杂,并且可能会演变。但是它将存在。因此,忽略或淡化架构并不能解决任何问题,只会使情况变得更糟。问题将潜伏,并浪费时间和金钱,因为它们将阻碍开发人员和分析人员,将尝试开发应用程序并获得对模糊数据块的见解

那时的重点不是抛弃模式,而是使其具有功能性,灵活性和可互换性。RDF非常擅长此操作,因为它也是数据交换的标准化格式(例如JSON-LD)的基础。顺便说一句,RDF还可以用于轻量级模式和无模式方法以及数据集成

将知识纳入图表

那么,炒作是什么?已有20年历史的技术如何在臭名昭著的炒作周期中崭露头角?炒作也是真实的,这就是原因。这与AI宣传的飞速发展是同一回事:方法的变化并没有太大变化,更多的是数据和计算能力可以使之大规模运行。

另外,AI本身也有帮助。或者,更确切地说,是这种自下而上的基于机器学习的AI,如今已经大肆宣传。知识图本质上也是AI。只是另一种。不是一些现在大肆宣传的AI,而是象征性,自上而下,基于规则的AI。迄今为止不受欢迎的那种。

并不是说这种方法没有局限性。很难以一种功能性的方式来编码有关复杂域的知识,并很难对其进行大规模推理。因此,机器学习的工作方式就像无模式的方式一样流行。而且也有很好的理由。

知识图:从图和数据库中获取知识

 

 知识图起初可能很难,但不要放弃。实践使之完美。

随着大数据爆炸和NoSQL的兴起,其他事情也开始发生。非RDF图的工具和数据库出现在市场上,并开始获得成功。这些具有标记属性类型(LPG)的图更简单,更省力。与RDF相比,它们要么缺少架构,要么具有基本的架构功能。

而且它们通常在运营应用程序,图形算法或图形分析方面表现更好。最近,图形也开始用于机器学习。这些都是非常有用的东西。

算法,分析和机器学习可以提供有关图的见解,其中一些常见用例是欺诈检测或建议。因此,可以说,这种技术和应用程序是自底向上地从图形中获取知识的。另一方面,RDF图可以自上而下地将知识带到图中。

那么,自下而上的图也是知识图吗?

此外:快速行动而又不会破坏数据:治理机器学习及其他领域风险的治理

正如知识工程师会说的那样,这是语义问题。进行知识图炒作很诱人。但最后,缺乏明确性证明服务很少。图形算法,图形分析以及基于图形的机器学习和见解都是很好的,准确的术语。而且它们也不与“传统”知识图互斥。

前面提到的所有突出的用例都是基于多种方法的。例如,拥有知识图并使用机器学习填充知识图有助于构建有史以来最大的知识图-至少在实例方面(如果不是实体的话)。这也是DeepMind等AI先驱正在研究的内容

一些旧的东西,一些新的东西,还有一些用于图数据库的东西

像往常一样,用于图形的方法和工具的选择取决于用例。这也适用于图数据库,随着它们的发展,一直对其进行密切监控,并迅速增加了新的供应商和功能。

Strata上,最具颠覆性创业奖的获胜者和亚军都是图形数据库:TigerGraph和Memgraph。如果需要更多证明该领域进展迅速的证据,则可以使用。顺便说一下,两家创业公司都只有不到两年的历史。

对于2017年9月隐身的TigerGraph来说,这是非常活跃的一年。今天,TigerGraph宣布了一个新版本。它有一些旧的东西,一些新的东西以及一些借来的东西-尽管无法真正发现任何蓝色。

 知识图:从图和数据库中获取知识

 

 自上而下,还自下而上?掌握图表知识?图片:组织物理

 知识图:从图和数据库中获取知识

大数据和数字化转型:一个如何实现另一个

淹没数据与大数据不同。这是大数据的真实定义,以及如何将其用于数字化转型的有力例证。

阅读更多

新事物很少。都在解决TigerGraph的现有痛点。TigerGraph增加了与流行的数据库和数据存储系统的集成,这些数据库和数据存储系统包括:RDBMS,Kafka,Amazon S3,HDFS和Spark(即将推出)。TigerGraph说,github存储库将在TigerGraph推出时托管开源连接器。

当然,如果没有社区,github存储库就不值钱了。TigerGraph正在为此进行努力,并宣布了新的开发人员门户和电子书。该版本还带来了更多的部署选项,为现有的Amazon AWS添加了对Microsoft Azure的支持。跟上容器化趋势,还添加了对Docker和Kubernetes的支持。

之前提到了图算法,这可能是该版本中最有趣的方面,它与查询语言结合在一起。TigerGraph增加了对图形算法的支持,例如PageRank,最短路径,连接的组件和社区检测。有趣的是,这些都是通过TigerGraph自己的查询语言GSQL支持的。

MemSQL 6.5:具有自主工作负载优化,改进的数据提取和查询执行速度的NewSQL

已经提到了查询语言对于图数据库的重要性。最近,根据DB-Engines,在思维共享方面领先的图形数据库供应商Neo4j提出了为LPG图形数据库创建标准查询语言的建议。与SPARQL的RDF相比,LPG领域中不存在此功能。

TigerGraph最初响应Neo4j。但是现在,情况正在发生变化。TigerGraph刚刚发布了Neo4j迁移工具包,该工具包主要基于将Neo4j的查询语言Cypher转换为GSQL。这是与TigerGraph讨论的重点。

TigerGraph这样做很有意义,因为必须迁移Neo4j的查询语言Cypher中的现有查询主体,这将是一个障碍。有趣的部分是TigerGraph如何选择实现此目标:作为一次性的,成批的翻译过程,而不是以交互方式进行。

这是一个战略选择。TigerGraph希望人们改用GSQL,而不是在TigerGraph之上使用Cypher。传统上,开发人员不愿学习新的查询语言。TigerGraph上有一些故事可以分享,这对于有多大的作用,但是如何发挥作用是任何人的要求。

TigerGraph公告中的早期部分是基准。这些基准实际上是新基准,但是TigerGraph自隐身以来便已成为基准。对于声称因其MPP架构而比其他任何方法都快的解决方案,这也很有意义。该基准测试将TigerGraph与Neo4j,Amazon Neptune,JanusGraph和ArangoDB进行了比较,毫不奇怪地发现它比所有这些都更快。

MemSQL 6.5:具有自主工作负载优化,改进的数据提取和查询执行速度的NewSQL

借来的部分?为什么,当然是知识图。TigerGraph的员工还证实了客户对此表现出的极大兴趣,例如,中国的知识图谱事件吸引了1000多人。什么知识图?好吧,现在你知道了。

 

上一篇:The RDF-3X engine for scalable management of RDF data----part2


下一篇:如何在RDFLib中向图添加注释或标签?