我讲之前先讲一点题外话,因为周曦讲的比较有意思,而且我们都是所谓的黄家军(黄教授的子弟)。我以前在柯达做了15年的R&D,虽不像周曦说的那么惨烈,但是也很惨烈。我在柯达时,当时头号敌人是富士。讲一个故事,有一段时间,柯达认识到洗印照片中自动去除红眼,有人听到富士要做了,那我们就要做,我们说要干掉80%的红眼。因为柯达是数字洗印,但是时间有限,每天处理不知道多少百万张的照片。当时大家花了很大的力气才达到精度和速度的要求。大公司之间打还好一点。你知道美国什么食品是最便宜?中餐,因为中国人打价钱战是最厉害的。
我现在想说的正题是,从研究的角度来讲计算机视觉下一步是什么问题。人工智能经过了大起大落,有第一个冬天、第二个冬天,现在大家觉得是好日子。什么是Computer Vision。Computer Vision很长时间干不了什么实事,我在Computer Vision这个领域也干了20多年了,ComputerVision开始时就是只有一个图,能把这一个图搞转了就很厉害。我在柯达时(应该是最早的几个地方),开始研究真实的图片。柯达给大家洗印照片的,所以有很多真实世界的照片。后来又开创了真实世界视频的处理,我们是第一家做真实世界视频里的行为识别。之前的工作都是找两个学生表演一下。你到真实世界数据是有很多问题的,这个事情我不用多讲,到了真实世界有各种各样的问题。
这次人工智能大会很多话已经说过了。计算机视觉就是想从图像中获取有用的信息。黄教授是计算机视觉之父,有别的一派人说David Marr是计算机视觉之父。这里随便讲几个例子,从这些图像中获取有用的信息,现在大家觉得不稀罕,可在2000年时是不可想象的,那时连人脸检测都做不好,所以我们这个领域有很大的进步。2015年时就有几项比较轰动的工作,第一项工作是汤晓鸥教授组做的工作,他们号称是第一次计算机超过了人类,这个不是人脸识别,是人脸鉴别,达到了99.5%。第二个就是ImageNet,孙剑他们用ResNet 151层,取得误差小于5%。这些东西现在大家听到更多了,可能有人有这样的想法,好像计算机视觉已经没有什么可玩的。其实像金老师说的文字识别,这个时间搞的更长,现在还有很多的问题,这些99.5%的算法拿到实战中去又是另外一回事。
计算机视觉需要考虑下一步,这次大会也有讨论,现在很火热,但是寒冬来了怎么办?不能等到寒冬来了才去想对策,狗熊怎么对付寒冬?先吃胖了就能熬过寒冬。作为一个研究者,你应该想一想,不要等到寒冬来了才想我是不是能找到工作、是不是应该转行,而是现在就应该想,下面要去干什么。Vision+X,这个X不是一个东西,是很多的东西。我在讲Vision+X之前,我先讲一下Vision有什么发展,我着重讲一下视频分析。这是我前面提到过的工作,2009年CVPR我们第一次用真实的视频进行行为检测。开始,我们花了很多精力,网站上有很多视频,但是很多是不能用的。开始有11类行为,现在已经有101类了。搞视频的都知道,开始是UCF11,现在是UCF101。另外一个工作是一年以后在CVPR2010,我们一个工作得了Best Student Paper。这个工作验证了一个观点,现在习惯监督学习在视频分析下更是一个问题,你看一个视频是什么概念,整个视频看完了才能标,这个工作量很大。当时做这件事,我不想做这个视频标定,但我需要足够的样本才能学习。我去Youtube网站,可是你要心里清楚这些用户提供的标签是不能相信的,因为搜索Youtube时是用关键字,有人为了骗点击率可以乱放一个关键字。一个例子是《星球大战》,你搜索这个关键字,很多不相干的视频都会弹出来。现在这个问题还是存在的。迁移学习从视频分析的角度那时我们就提出来了,具体的我就不讲了。
刚才提到《星球大战》,用户的标记是不可信的,我们怎么解决这个问题?当你用关键字搜索时,我知道你大概想要什么东西。这个叫做DBPedia的知识库,比如想找Tiger Woods时,跟什么有关,跟美国公开赛和英国公开赛有关,我可以去DBPedia获取一些个视觉上的表现,比如说高尔夫的场景是什么样。这时你就可以把前面从网络上搜到的有关的视觉信息,拿去和视频里的视觉信息对比、验证。我们解决计算机视觉的问题,最终是想解决认知的问题,就是描述图像视频这些东西。那我先做分类,我知道行为怎么识别,现在我引进感知互相之间的关系,就一步一步向认知过渡。
现在做video有很多的手段,你有整个video、一段video、一个frame,这是我们去年的工作。我们提了一个MultiGranularity的概念。因为有了动作识别,我们有了更好的基础,这时我们要干什么?是去做更高层的理解。这是什么过程?这就牵扯到现在计算机视觉领域或者自然语言理解领域,两边都往这个方向走,这个方向就是视觉+语言。这个工作为什么有意思?这是在AAAI/IJCAI发表的文章。假如说你有一个video,video里做了一件事情,这个人做了化学实验。化学实验,你要混合,有搅拌,它有一个过程,你先把标签做好,加入500毫升什么溶液,再把什么东西放进来。我们想达到一个什么目的?我们想知道在这一步、在video的什么地方出现,或者你看见这个video走到这一步时是在干什么。这件事不是全新的问题,很多人做类似的问题。比如分析炒菜的video,也有这个问题,你做西红柿炒鸡蛋,一般人做这个事情是做了识别的问题,很多人做西红柿炒鸡蛋,最后把西红柿认出来、鸡蛋认出来、怎么切认出来,这样再去做,这个没有什么稀罕。我们这个问题为什么难?我是想在从来不知道怎么做这件事的情况下,知道这个video是做这件事,我就能把它弄出来,把步骤和视频里的操作搞清楚。我没有训练过,所以这是个无监督学习。人工智能大部分时间是有监督学习,有监督学习是有限的。人很多时候是无监督学习,我不需要看100个西红柿炒鸡蛋的视频才能学会炒鸡蛋。当你描述时,这里面有很多的名词,看完这个描述就知道这里应该出现多少个物体;看到有很多动词,就知道这里面有多少个动作。你还知道每个步骤是这样发生的,所以它一定有一个顺序,这些是我们唯一可以有的信息。这里有一个示意图,我不知道这是什么药罐子,可能另外一边有水,我现在通过对整个视频的观察,我就能知道哪个是那个东西,你现在干什么事,这个我具体不讲。
下一个例子,这个例子是我们做Image/video Captioning。我们做的是什么事情?在我们做时,多伦多大学已经提出了attention概念,可以把注意力这个概念引入到这类的问题里。比如你看到这个图,你的注意力应该在这个物体上面。我们认为你在写一个句子时,里面的每一个词注意力是不一样的。这个注意力我不一定从这里学,我可以找一个语文课本学人怎么说话。我把这个学好以后,不管是视觉上还是语义上的注意力都放到一起。结果发现我们刷了一次榜,就刷了第一,并在第一的位子上坐了5个月。周曦说了一句有意思的话,技术领先是不可靠的。因为我们没想到呆了那么久,后来别人就赶超了。如果有周曦他们那样的精神,超过不是问题。谷歌有这么多牛人,超过也不是问题。
我们这几年还做了一个东西是情感计算。这也不是全新的东西,但这是图像情感计算。你可能觉得不新,黄教授的团队,研究过根据表情来的情感。我这里说的图像情感计算是泛泛的图像,随便拿一个图,只要能引起情感就可以推测出。我们大概是2012年开始做的。我们做这个方向,后来被别人注意到了,这是(沈向阳)微软的“政治局常委”之一。他提到了我们做的工作,我们开始是不用深度学习做的,因为没有足够的大数据。后来想了一个花招来做深度学习。其实我们也不是最早做图像情感计算的,最早是荷兰人做了一个图像情感计算。情感计算最开始时是做二值的,正能量、负能量就可以了。他们系统的精确度是51%,等于系统什么也没有干。我们用了visualattributes,达到了61%。同时哥伦比亚大学发明了SentiBank,从1 200个ANP检测器再到情感,也达到61%。注意我们只用了20来个visual attributes。要做图像情感的深度学习,因为情感很丰富,怎么也需要100万张照片,而且要有情感标定。如果用人来标,我们算了一下,需要好几万美元。怎么办?就拿这61%分类器去标定100万张图,那就可以做深度学习了吧。不要高兴太早,这个是要打折扣的,也就是每3个样本就有一个错的,而且不知道哪个是错的。先不管了,塞进去一搞就到71%。你再用71%分类器再标一遍,如果有一个方法把差劲的丢掉,好的留下来,这就是我们的想法,Progressive CNN。怎么知道这个算法有多少是对的?用算法自己的置信度。唯一的问题就是,你是用不可靠的数据训练来的,我们只能拿这个置信度作为一个概率的东西。再搞几次就到了78%。终极的目的是在社交媒体中得到应用。社交媒体中的文字是非正式文字,很短,是做不好的。我们现在用图文一起做情感识别,当然你把两个放在一起就会做的更好,这是我们第一个版本,后来有新的版本。怎么样把多模态的信息,包括视觉信息做分析。刚开始情感是二值的,正、负的。根据心理学来说有24种情感,但不是独立的情感,是3×8。这个工作的意义是什么?在我们做这个工作之前是没有足够大的数据集的。我们最后花了几千美元,保证每一种情感有几千个样本。正确率达到60%,听着不怎么样,实际也不低了。这个东西比你瞎猜好5倍。后来还没有很多文章跟进,也说明问题的难度。情感还是一个比较有意思的问题,情感计算是未来人工智能的一个方向。
我们后来的版本引进了Attention。我们现在做很多社交媒体的东西,一个是有关用户的东西;一个是有关情感的东西。有关用户的东西,最近做了一个工作。我可以把微信朋友圈里的信息全部拿下来,这是很“严重”的,因为微信是不让你拿的;但是我们有别的方法拿下来,不说了。我们把它所有的图做了聚类,我们用深度学习的分析,发现人的朋友圈分享的图,实际上可以用一个46维空间表达。我可以把每个人的兴趣爱好变成一个46维向量,这样就对这个用户了解了。现在大家爱发自拍,你是爱发室内的自拍还是室外的自拍,是跟闺蜜的自拍还是独白的自拍,都不一样。最后可以把发自拍的行为和其他的朋友圈分享的图片关联起来,这个我没有时间讲了。
最后讲一个例子,大家要注意到,我讲了半天有人觉得都不是计算机视觉。但我绝对是在讲计算机视觉。这是什么问题,这是分析时装,用淘宝的数据。我知道淘宝的数据,就知道哪一个服装很畅销。但是服装商和运营商最想知道的事情,这个为什么畅销。我可以用计算机视觉的方法,把每个服装的构成,什么颜色、什么花案、什么式样分析出来;然后和它的销售额挂钩,畅销的衣服,不畅销的衣服,你马上发现这件畅销的衣服是领口让人喜爱,还是别的特点。这样服装商就会心里有数,让零售商多进一些这样的衣服。现在大家都喜欢说落地,你要落到钱眼里了就是落地了。
我们对用户画像,不仅是知道他的性格、行为,知道他的健康状况,知道他的幸福程度,最终的目的想给用户一个立体画像。这些事情都可以做,而且很大程度上是从视觉信息得到的。我们不仅可以用这样的方法研究一个人,还可以拿这个研究社会。社会的脉搏是哪些?就是这些——公共卫生、舆情,什么流行不流行,交通怎么样,有没有人闹事。医学是一个重大的方向。医疗的图像、医疗的视频也是一个可以发展的领域。
最后,我想说社交媒体可以干什么?我们做了很多事情,研究一些不良习惯。比如在美国青少年酗酒是个问题、用毒品是一个问题、抑郁症是一个问题,这些问题实际上你观察一个人的社交媒体上的表现,都是能够读出来的。这是我们做了一系列的工作。我顺便替FACE++做一个广告,我把他的脸一拿过来就知道是老人还是年轻人,我读准了就知道他的性别,美国有种性的人,黑人、白人、亚洲人等。我们还做有关营养的,分析食品的构造,因为美国人有很多的垃圾食品,吃了垃圾食品自己变得“垃圾”(说的太严重了哈)。我们想通过食物的情况了解他吃了什么东西,对他提一些建议,这个事情正在做。
计算机视觉下一步是什么?计算机视觉的下一步,就是不要停留在计算机视觉里,而是拿计算机视觉作为一个起点,去解决AI的问题。因为计算机视觉本来就是AI一部分,而且是感知的部分,不是认知的部分。这个X是什么?可以加自然语言理解,可以加知识,人有各种知识,别的地方的知识可以拿过来。可以和文字结合,和语音也可以结合,和情绪可以结合。具体的应用,与医疗健康、社交媒体、人机交互,这都是可以结合的。
苏东坡有一句话,“也无风雨也无晴”。你最好是比人想的前一步,你管它是冬天还是春天,不是晴天还是下雨,你都知道有一个方向去努力。我就把苏东坡这句话送给大家。
(本报告根据速记整理)