我被“非结构化数据包围了”，请求支援！

2022-05-26 06:16:25

阿里妹导读：非结构化数据的内容占据了当前数据海洋的80%。换句话来说，就是我们都被“非结构化数据”包围了。由于非结构化数据的信息量和信息的重要程度很难被界定，因此对非结构化数据的使用成为了难点。如果说结构化数据用详实的方式记录了企业的生产交易活动，那么非结构化数据则是掌握企业命脉的关键内容，所反映的信息蕴含着诸多企业效益提高的机会。而对大部分组织而言，掌握先进的非结构化数据分析能力仍是从“大数据”中获得价值的重大挑战。

当前，数据技术及产品部对结构化数据处理和应用已经具备了成熟的技术以及产品方案。为了应对日益增长的非结构化数据诉求，非结构化数据体系通过覆盖非结构化数据规范、数据设计、算法能力、服务能力等来解决这一问题，该体系是对OneData体系的非结构化数据的补充和完善。已经赋能了集团内很多业务取得了非常好的效果，而这只是刚刚开始。

非结构化数据概述

“非结构化数据”是什么？相较于记录了生产、业务、交易和客户信息等的结构化数据，非结构化的信息涵盖了更为广泛的内容。非结构化数据指的是：数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、 HTML、各类报表、图像和音频/视频信息等。

相对于结构化数据，非结构化数据具有以下特点：数据存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。

当前行业公认：非结构化数据占数据总量的80%以上。结构化数据仅占到全部数据量的20%，其余80%都是以文件形式存在的非结构化和半结构化数据，非结构化数据包含各种办公文档、图片、视频、音频、设计文档、日志文件、机器数据等。

图：非结构化数据的占比图图片来源：《大数据分析行业网》

非结构化数据没有预定义的数据模型，不方便用数据库二维逻辑表来表现。

下面对比一下结构化数据和非结构化数据的区别：

结构化数据，是指由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。

结构化数据格式形式如图下：

图：结构化数据

非结构化数据，是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。

非结构化数据-图片格式如下图所示：

图：非结构化数据图片来源：《数字时代》

非结构化数据包含的信息量丰富。非结构化数据与结构化数据最大的区别在于蕴含信息量非常丰富，同样以图片为例，请看下图：

图：图片蕴含的信息图片来源：淘宝

你看到了多少信息？不妨我们一起看一看：

人物：女人，短发，佩戴项链，做了美甲，......
衣服：女装，黑色T恤，长袖，低领，白色裤子，薄款，紧身
文字：秋定制，流金诗意，2折包邮，custom

这是一些显性信息，可以看出一张图片里面的显性信息就已经很多了，当然还有很多隐形信息。比如：

1.衣服材质：纯棉
2.特点：时尚的版型，贴身，显身材
......

由此可以看出非结构化数据隐含的信息量非常丰富。

非结构化数据一般不能直接使用，需要通过算法等手段进行处理。但因非结构化数据本身的特点，处理难度大。比如：对评论文本信息的情感分析。为了实现情感分析，需要使用算法进行复杂的处理，通过大量的数据训练才能完成。以商品评论数据来看，对于结构化的评论如下表：

结构化评论数据

可以直观看出用户感情是负向的。

同一个买家的非结构化评论：我在这家买了，缺少螺丝，商品还有划痕直接不管。

根据以上的评论内容，如果要确定买家的情感，就没那么简单了。需要使用NLP算法，并经过算法效果评估等一系列过程。

因此，当前非结构化数据的处理门槛还是很高，处理难度还比较大。

非结构化数据的价值及应用

非结构化数据因其包含丰富的内容、多样化的形态以及广阔的想象空间，必将引爆将来的市场，无论是娱乐、教育、医疗、生活等，都将产生更丰富的非结构化数据场景、使用更智能的数据处理方式。接下来，我们就针对当前的一些场景简单了解一下非结构化数据的价值。

ImageNet：改变AI和世界的图片[1]

2006 年，李飞飞开始反复思考一个问题。

当时的李飞飞才刚刚在伊利诺伊大学香槟分校（UIUC）任教，她看到整个学界和工业界普遍流行一种想法，都在致力于打造更好的算法，认为更好的算法将带来更好的决策，不论数据如何。

但李飞飞意识到了这样做的局限——即使是最好的算法，如果没有好的、能够反映真实世界的训练数据，也没办法用。

李飞飞的解决方案是：构建一个更好的数据集。

“我们要详细描绘出整个世界的物体。”李飞飞说。由此生成的数据集名叫 ImageNet。

相关论文发表于 2009 年，最初作为一篇研究海报在迈阿密海滩会议中心的角落展示出来。但没过多久，这个数据集就迅速发展成为一项年度竞赛，衡量哪些算法可以以最低的错误率识别数据集图像中的物体。许多人都认为 ImageNet 竞赛是如今席卷全球 AI 浪潮的催化剂。

尽管经历了很多艰辛，但是最终 ImageNet改变了人们认识数据和算法的方式。“ImageNet 思维所带来的范式转变是，尽管很多人都在注意模型，但我们要关心数据，”李飞飞说：“数据将重新定义我们对模型的看法。”

自 2010 年以来，谷歌、微软和 CIFAR 推出了其他一些数据集，因为事实表明深度学习需要像ImageNet 这样的大数据。

“图片，很多很多的图片”，作为非结构化数据的一种，ImageNet向我们展示了图片的巨大威力，而我们相信，这只是刚刚开始。

图： ImageNet 图片来源：《数据科学浅谈》

店小蜜：智能客服的养成之道[2]

2016年3月，一个名叫“我的小蜜”的人工智能客服就出现在了手机淘宝和手机天猫的APP中，它可以说是店小蜜的前身，当时，它的主要工作是担当平台客服，为用户解决催发货、退货退款、投诉和售后保障等问题。“我们开发‘我的小蜜’，是为了让用户能以最快的方式找到解决问题的途径。” 小蜜的产品经理南山回忆起团队初创时的往事，这样说道。

整个淘宝天猫电商平台的用户有好几亿，如果让每个用户都能用快速客服通道来联系客服，显然会对淘宝客服团队造成巨大压力。怎么办呢?人力不能解决的问题，就靠技术来解决。客服人员忙不过来，就请智能客服来帮忙。阿里每天大量的真实交易互动，让用户的问题都以数据的形式沉淀下来。通过这些数据，开发团队可以得知哪些问题最高频。而这些数据也让小蜜不断地进行强化学习，变得越来越“聪明”，应答准确度越来越高。

客服系统产生的文本、语音成了丰富的宝藏，通过对这些文本、语音的智能化处理，店小蜜逐渐成为了“最懂电商的客服机器人”。

“知识，各行各业的知识”，店小蜜的成功从一个角度证明了对文本、语音的运用，可以释放出来的巨大能力。我们相信，这只是刚刚开始。

图：客服机器人图片来源：浙江在线-钱江晚报

智能安保：智能化办案[3]

2018年11月5日到10日，首届中国国际进口博览会在上海成功举办。本次进博会有一个大的亮点：智能安保。

在本次安保活动中，上海*局“智慧*”产品“智能警务中台”成功亮相，通过对辖区1.5万摄像头的全量接入，实时解析，实现民警的智能化办案。基于全网全视频数据结构化的提取，实现人、车多维特征布控，触网自动告警，融合视频结构化信息、MAC、IMEI、RFID等进行多维研判，对目标嫌疑人进行行为轨迹跟踪。

图：首届中国国际进口博览会图片来源：环球网

“视频，流动的视频”，首届中国国际进口博览会上智能安保的成功应用，使我们相信了对视频监控智能化处理的巨大。我们仍然相信，这只是刚刚开始。

狂奔的应用：被“惯坏”的应用

随着网络的加速和人工智能的兴起，仿佛一夜之间信息流、短视频、网红直播这些新的娱乐方式涌现在人们面前，躁动的人们搅动着躁动的市场，躁动的市场搅动着躁动的应用。头条、抖音、斗鱼、小红书、淘宝直播等等新的娱乐或电商模式喷薄而出，网红经济、内容电商、信息流等新兴的词汇也如雨后春笋般涌现出来。正如苹果广告Think different里面描述的那样：“你可以赞美他們，引用他們，反对他们，质疑他們，颂扬或是诋毁他们，但唯独不能漠视他们。”也许你跟我一样，对某些产品不以为然甚至嗤之以鼻，但是新的娱乐形态毕竟挡无可挡，每个人都不能置身事外。

仔细分析，其实不难发现，当我们经历了互联网时代的洗礼，对信息的渴望被极大的唤起，常规的结构化数据交互已经不能满足人们的欲望，而伴随着技术成熟而来的非结构化数据：图片、视频、语音，正式登上舞台，催生着一个接一个的应用一路狂奔。

图：狂奔的应用图片来源：百度百科

非结构化数据的问题和挑战

非结构化数据虽然具有很大的价值，但是当前对非结构化数据的处理和管理却存在很多问题和挑战，下面结合我们的理解对这些问题和挑战进行一个初步整理。

实体和关系分离

非结构化数据因为其自身不具有规整的形式，因此不能像结构化数据一样按照二维表的形式存储。因此其实体和关系是分离的。

举个简单例子：对于淘宝商品的图片，其商品的信息是通过二维表的形式存储的，但是主图的图片却存在在OSS中，需要通过cdn映射才能访问图片内容。

这种情况出现在大部分的非结构化数据的身上，实体和关系的分离，造成了场景分析的困难。如果我们单独看一张图片（可参考图：图片蕴含的信息），其蕴含的丰富的信息如果全部靠算法去处理，不仅耗费巨大的资源，而且无法追溯其来源、曝光、使用场景等，会造成大量精准信息的缺失。如果我们从结构化数据去看，却无法直接使用图片本身所包含的信息（图片的特点、图片包含的文字、图片包含的促销信息）等。
实体和关系的分离，造成了非结构化数据使用的困难，降低了数据的完整性。

数据分散，未形成合力

无论是从ImageNet的例子还是从集团数据的角度去看，当前非结构化数据普遍存在数据分散的现象。而实际的生活中，数据不应该是分散的，而应该形成联动，更充分的发挥价值，便利我们的生活。

处理复杂，开发门槛高

现在对于非结构化数据的处理，离不开算法，依托于集团人工智能实验室、各个部门的算法团队，集团内智能化场景遍地开花，欣欣向荣。

但是，这并没有解决非结构化数据处理复杂，开发门槛高的问题。算法的高门槛和业务的高要求，制约了非结构化数据能力的释放。

随着5G时代的到来，各种新的应用产生的巨量非结构化数据，仅仅依托人工的合作形态，恐怕不足以很好的实现非结构化数据的使用。工具化、平台化、规模化将会成为将来的重点。

非结构化数据的思考

经过前文的描述和分析，我们对非结构化数据进行了深入的思考。

构建完整的非结构化数据资产意义重大

“单丝不成线，孤木不成林”，构建非结构化数据资产意义重大。当我们将分散的非结构化数据汇集在一起，会形成完整的用户、商品、内容、品牌等的数据集，会形成完整的资产视图和商业视图。数据汇集后，各个BU看数据的视角不再是孤立的，不再是受限的。从广度上来讲，能够从整个集团甚至整个市场的层面去查看业务的全貌；从深度上来讲，能够深入行业，形成行业专业化的知识，将业务深耕进去。

集成通用及专用的算法能力至关重要

当非结构化数据遇到MIT、PAI等集团强大算法平台或工具后，将会充分降低算法的使用门槛，充分发挥数据的价值。届时，80%的非结构化数据不再是放在仓库中积灰的矿石，而是可以被加工成闪闪发光的金子；算法不再是针对具体业务去赋能的途径，而是可以被规模化使用的利器。

提供标准化、快速的非结构化数据服务前景可观

当前无论是AWS、Azure还是阿里云，对于非结构化处理主要提供工具、算法，并没有针对数据本身提供解决方案，不同的行业数据应该如何组织、如何训练、如何形成行业知识库。所谓，提供了“器”，却没有提供“术”。而市场上很多数据公司，则专注于某个领域的数据，如*、电商、咨询等行业，提供行业性的解决方案，并且取得了可观的成果。如果我们能够与业务深度结合，提供标准化、快速的非结构化服务，前景将会非常可观，小到BU，大到集团乃至外部市场，具备极大的想象空间。

非结构化数据的价值还远未充分挖掘，未来：广阔天地，大有可为。

非结构化数据作为一种数据量大、类型丰富、与人工智能可以深度结合的数据类型，将会发挥越来越大的价值。然而如何管理、使用、快速价值化非结构化数据，当前并没有很好的解决方案，我们团队在综合分析市场上的产品和深度思考后结合DT强大的数据能力，提出了“非结构化数据体系”的设想和解决方案。

参考资料：
[1]ImageNet：改变AI和世界的图片
https://www.sohu.com/a/160316515_680198
[2]店小蜜：智能客服的养成之道
http://www.sohu.com/a/131845725_635114
[3]智能安保：智能化办案
https://baijiahao.baidu.com/s?id=1616255897334017138&wfr=spider&for=pc

原文发布时间为：2019-09-9
作者：数据技术及产品部
本文来自云栖社区合作伙伴“阿里技术”，了解相关信息可以关注“阿里技术”。

码农公寓

非结构化数据概述

非结构化数据的价值及应用

非结构化数据的问题和挑战

非结构化数据的思考

相关文章