作者介绍
唐云峰,1999年创建“站长工厂”网站,提供网站建设技术与资讯、开源软件下载、托管应用、桌面虚拟化等服务。2009年起投身物联网与NLP(自然语言处理)领域,2017年担任中韩未来革新加速器(SKFI)社长,专注于IoT企业投资与技术赋能。
2018年底成为2018~2019年度阿里云MVP,此次应阿里云开发者社区之邀,参与“MVP时间”策划的5G+AIoT系列专题创作。
内容概述
“夏虫不可以语于冰者,笃于时也。”
5G的想象空间与应用并不能在4G时代去规划,但从业者可以沿着4G技术对于现有应用与场景的支撑不足展开一些近期可能的产业机遇分析。
AI与IoT目前的技术边界决定了AIoT的融合会产生什么样的效应或者说是技术工具,严格来讲作者是立足于互联网从业者角度去看待5G的产业发展的,所关注的也更多是应用场景。最后将以个人视角展开几个应用场景,管窥蠡测其中的工程难题与产业机遇。
文章目录
- 移动通讯与互联网应用演进与革新
- IoT发展现状(物联网这个事情有多么的不高级)
- AI有多么的不智能
- 如果把人类的历史看成IoT(万物互联)的演化历史
- 那么现有的技术会带给物联网什么样的未来呢?
- 实现AIoT(万物智能)会带给我们怎样的挑战并带来怎样的产业机遇
更新计划
自2019年11月27日起,每周更新一篇,感谢关注,期待交流。虽然内容准备很正经,但是我尽量说人话,讲故事,谈场景。该系列自我要求:多一点感性认识,少一些理性分析。不是提倡反智,而是甘为搬运工。
为了减少劳动而更加努力劳动
看看标题都觉得这是《动物庄园》里的口号,我这里分享的是个人接触AI的故事。
数据库重构是一个重体力劳动
1999年一位忘年交好友,做了一个人物数据库的网站,可以查询上千位名人的生平资料。后来,我们团队接手了这个项目的运营。人物的资料库从最初的1300多,扩展到2.6万条,相关的文章多达数万篇。
最初的人物资料就是一篇篇文章,人物的各个属性都不是独立的字段。为了实现按照生卒年排序或查询,不得不对数据库进行重新设计。
重新设计之后的数据库,需要把原先的资料按照新的字段进行填写。海量的工作对于我们之后5个兼职志愿者来说,兼职就是不可能。
有些工作是重复劳动
愚公移山对于我们来说算是一种信念了,夜以继日,日复一日。两个多月过去了,资料转换仅仅完成了不到十分之一。
渐渐的总结了一些规律出来,比如某些字段的开始总是有特定词语的。或者在出现某些词语的句子里面出现的数字,总是有特定的格式或者特定的意义的。
于是我尝试编写了一个程序,把人物资料当中的生卒年,出生地,姓名等基础信息提取出来。当然使用的是全文检索的模式,虽然对于计算机来说是效率不高的一堆指令集合。
但是这个程序却解放了我们,有点类似于很多AI的初学者用Python写的爬虫。处理了数据才有后面的分析数据。
关键词是什么?
更大的调整自然发生在简单问题解决之后。
每一位人物的简介、关键词都是人工添加的。在释放了大量的人力之后,我们不断折腾的路又一次开始走偏。
每一篇文章需要完整阅读之后才能总结出关键词。我们尝试过词频统计的方式来总结关键词。然而那个时候我们弄出来的东西都是一些很奇怪的结果。因为中文分词,中文词语和英文词语最大的区别是,中文的语素之间是没有空格的。导致大量的“词语”并不是真正的词语,有一些是截断的内容。
我们做了一个词典库,出现在词典里面的才能被认为是词语。然而,更棘手的问题出现了。统计出来的确实是一个词,但是有可能是从别的词上切下来的一部分。
针对这种情况,又尝试着做了词语的权重。机械且传统的方式,调整了一个程序算是勉强能用了。因为再这样做下去,我们发现我们都可以做搜索引擎了(确实,但那是另外一个故事)。
根据描述判断好人还是坏人
这只是一个比喻,我们团队发生过争论,要不要去判断一个人是什么职业、历史褒贬之类的信息。
因为这些褒贬信息总是能够伴随着一些词语的词频展现出来。
同样的,每一位历史人物的描述上也能够找到职业的归属。
终于,我们基于朴素的统计方法和传统的语言学的知识无法解决我们的需求了。
NLP(自然语言处理)进入了我的视野,然而当时能够找到的中文NLP一片荒凉,能够参考的只有哈佛的一些论文、哈尔滨工业大学、复旦大学搞得试验性的开源项目。
AI还只是个孩子,需要有人教
当我费力地学会了一些Java的皮毛之后,更加费力地部署了FudanNLP,获得了前所未有的便利。
依存句法分析、指代消解、分类、聚类想都不敢想的玩法出现在了面前。
基于半监督学习,NLP提供给我一个新的思路。传统靠编程,AI靠教育。
虽然NLP玩法很丰富,但是针对我们具体场景的需求则需要单独训练,我们的训练语料没有演示的语料那么齐全,还需要大量的标定工作。
为了偷懒,付出了比踏踏实实做更高的成本。因为你需要教育个非人类物种理解人类的语言。为此,我学习了大量的数学相关的知识。作为一个文科生,被AI实实在在教育了一番——“不想当数学家的程序员不是一个好的语文老师。”
AI的工作方式有何不同?
编程是通过告诉计算机要做什么,每一步操作都可以被预期,甚至出现的每一个bug都能找到原因。
有传言AI的可预期只是在可以接受的概率下的可靠,甚至不知道AI是如何想的。
其实,AI没有那么可怕。很多时候让我有了一些错觉,只是其中的数学方法藏的很深,深到了不容易甚至无法对应到现实意义当中。
打比方是不准确的,但却容易让人理解。“教会了AI之后,AI按照你预想的结果不断修正自己的输出,如同耍猴人不停鞭打做错动作的猴子,耍猴人并不清楚猴子怎么想的,也不屑知道猴子怎么想。”
或许正因为如此,让很多人对AI应用在涉及人类安全的领域,有一种莫名的恐惧。
当前AI的工作特点是简单重复
大量简单重复的工作才是AI的应用领域,不论是写诗还是作曲,人脸识别或者语音控制。
能否有更多的拓展呢?训练素材和算力才是制约,哪个领域的素材丰富需求的算力可承受,哪个领域的人工智能应用就发展得快。
当前的好AI,是一个专家,只能完成特定任务的专家。
阿里云PAI平台&AI服务
只要有标定好的数据,你可以不懂数学,不懂编程依然能够训练自己的人工智能算法。大家可以使用PAI,尝试一下,当一个人工智能教师。
没有数据,也可以开始使用人工智能,语音识别、图像识别、翻译、自然语言处理等通用能力已经被阿里云做成了通用服务,不需要重复造*了。
下期预告
本期通过介绍个人的AI接触故事,下一期我们将一起继续技术视角的人类历史课。