Facebook这样看“深度学习”技术

Facebook这样看“深度学习”技术

本周早些时候,社交网络巨头 Facebook 宣布聘请纽约大学教授扬•乐康(Yann LeCun)掌管其新建的人工智能实验室,他将利用自己擅长的“深度学习”技术帮助Facebook更好地“读懂”用户行为。这位法国裔科学家日前接受了《连线》(Wired)杂志的独家专访,畅谈了深度学习技术和人工智能的未来发展(原文来自 Wired,搜狐 IT 编译)。

 

借助深度学习技术,Facebook可以自动识别用户上传的照片中人物的身份、自动添加相应的人名标签,以及让用户快速与亲朋好友分享照片。此类技术还能分析用户在Facebook上的一举一动,从而自动为用户显示他们想要看到的内容。Facebook可以利用深度学习实现“无穷无尽”的可能性——“它每天都能搜集到人与人之间的关系、搜集到用户在一天里的所作所为,它知道你支持什么党派、买了什么产品。”

 

Wired:我们知道你将会加入Facebook新建的人工智能实验室,但是你和你的人工智能团队具体将会研究什么呢?

乐康:我们想做两件事情——其一,是真正从科学角度和技术层面取得进展,这将包括参与学术界活动和发表论文;其二,从根本上讲,是把一些技术变成能应用到Facebook中的东西。但是我们目标是相当长远的,比Facebook现有的工作更加长远,在某种程度上脱离了日常生产活动,这样人们就有思考未来的余地。

Wired:那种技术会是什么样子?它能做些什么呢?

乐康:我们将要研究的技术,其实就是一切能让机器更加智能化的东西。说得更具体一些,就是基于机器学习的那些东西。如今,打造智能化机器的唯一途径,就是让它们消化大量数据并建立数据模型。近年来兴起了一种叫做“深度学习”的方法。它在图像识别、语音识别等领域得到了极其成功的应用,在自然语言处理领域也小有成就。哪怕我们只研究这些东西,也能对Facebook产生巨大影响——Facebook的用户每天都会上传数以亿计的图片和短视频,而聊天与消息中也蕴藏着海量信号。Facebook目前已经在网站上应用了大量机器学习技术,达到了能向用户显示相关新闻和相关广告的水平。

Wired:这种技术的核心科学其实已经颇有年头了,不是吗?早在20世纪80年代中叶,你和如今在 Google 工作的杰夫•辛顿(Geoff Hinton)等人就率先开发了这些被称为“反向传播”(Back-Propogation)算法的深度学习方法。

乐康:这的确是技术根源,但是我们已经有了更大进展。反向传播能让我们进行“监督运行”——比如,你手头有一组配有标签的照片,你就可以训练系统比对新的照片和标签。Google 和百度目前就是用这样的方法给照片加标签的。

我们都知道上述技术很有效,但是如果你手头的东西是视频或自然语言——它们的标签数据非常少,我们不能只是放一段视频然后让机器告诉我们视频里的内容是什么。我们没有足够的标签数据,而且即便花费大量时间让用户提供标签,能否达到图片标签那样的效果也是个未知数。

Wired:你提到了Google、百度、微软和IBM等其他互联网公司也在研究深度学习。在外行看来,似乎这一领域的所有工作都兴起于一个相对很小的深度学习学术圈,包括你和 Google 的杰夫•辛顿等人。

乐康:你说得一点儿也没错——虽然深度学习发展得很快,但是你得知道这项技术其实可以说是我、杰夫•辛顿以及蒙特利尔大学的约书亚•本吉奥(Yoshua Bengio)三个人的“密谋”——希望你能原谅我这么说。10年前,我们聚在一起,觉得我们应该着手解决视觉和语音方面的机器学习问题。一开始,这项技术是为了机器人控制等目的而开发的,但是我们后来得到了加拿大高级研究所(CIFAR)的资助。杰夫是主管,我是顾问委员会主席,我们每年碰头两次讨论一下进展。当时机器学习和计算机学术圈的大多数人都对这个“密谋”不怎么感兴趣。所以,在很多年里,这项技术一直局限在我们的那些讨论会中。但是,我们开始发表论文之后,越来越多的人开始对我们的研究感兴趣。然后人们开始看到切实的成效,于是产业界开始对此产生浓厚的兴趣。

Wired:在你看来,深度学习与普通的机器学习有何不同?很多人都对Google使用了十几年的那种机器学习算法耳熟能详——那种算法能分析海量数据,从而实现自动识别网络垃圾信息等功能。

乐康:那是一种相对简单的机器学习。创造这种机器学习系统需要付出巨大的努力,因为这种系统其实无法处理原始数据。所以,数据必须被转化为系统能够“消化”的形式。这个过程被叫做“特征抽象”。

以图片为例,你不能把原始像素数据扔给那种传统的机器学习系统,而是必须把数据转化为一种能被分类器消化的形式——以恰当的方式表述图片,正是很多计算机视觉学者在过去二三十年里努力做的事情。

相比之下,深度学习能让机器学习这一表述过程,从而不必由人工解决系统遇到的每一个新问题。如果我们拥有海量数据和强大的计算机,我们就可以建立能学会如何恰当表述数据的系统。

当今的人工智能技术存在的很多局限性,都是因为缺乏好的信号表述方式,或是因为我们现有的表述方式需要付出巨大努力去构建而造成的。深度学习能让我们把这一过程变得更加自动化,也能收到更好的效果。


原文发布时间为:2013-12-15


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

上一篇:基于微服务API级权限的技术架构


下一篇:ulimit open files linux打开文件数设置验证