LEVAN：首款全自动视觉概念的机器学习程序

2021-12-30 02:39:08

在今天数字驱动的世界，信息触手可及又无穷无尽。但当你想要了解某种未知的东西，比如你在朋友家里看到的厨房小工具的名字，你会发现你很难，也不知如何才能从网络上的大量信息中搜索、筛选有用信息。或者，一种截然相反的问题出现了--我们确实能在互联网上查找任何东西，但如何确保我们在短时间查询到一切与主题相关的信息？

来自华盛顿大学和位于西雅图的艾伦人工智能研究所（ the Allen Institute for Artificial Intelligence）的计算机科学家创造了第一个全自动计算机程序，用来做视图概念的机器学习。名为学习关于一切的一切，或者叫做列文（LEVAN），该程序将在线搜索成千上万的书籍和图片，来学习某概念及所有变化，接着将结果以一组全面而可浏览的图片列表呈现给用户，以帮助他们快速详细地检索、理解主题。

“这个程序所做的就是发掘文本数据与可视化数据之间的关联，”Ali Farhadi介绍说到——他是华盛顿大学计算机科学工程专业的一位助理教授，“程序学着将图像中像素与丰富的集合描述紧密耦合,这意味着当程序看到这些图片时，就能识别出特定的概念实例”。

在本月俄亥俄州哥伦比亚的计算机视觉和模式识别年会（the Computer Vision and Pattern Recognition annual conference）上，该研究团队将会展示这一项目以及一篇相关论文。

通过浏览在线图片的内容并使用目标识别算法辨别这些图片的特征模式，程序就能分辨出相关条目。与在线图片库不同，此程序凭借丰富的短语以及图片内容、像素组合，来理解并标识图片。

用户能浏览现有的大约175概念库。这些现有的概念范围从“航线”到“窗子”，包括“美丽”，“早餐”，“阳关”，“癌症”，“创新”，“滑板”，“机器人”，以及研究人员第一个输入，“马”。

假如你查询的概念不存在，你可以提交任何搜索术语，程序会自动产生详尽的，与此概念关联的子分类图片列表。比如，一个关于狗的搜索会产生显而易见的子分类集合：照片包括“吉娃娃（Chihuahua dog）”、“沮丧（black dog）”、“游泳的狗狗”，“脏乱的狗狗”，“灵缇犬”。但“狗鼻”、狗盆、“易闯祸的人（sad dog）”、最丑的狗、“热狗”，甚至瑜伽姿势“下犬式（down dog）”,也出现其中。

此技术通过在成千上万的谷歌英文书籍中寻找文本，并且在完整的数码库中查询每一个可能的概念来发挥作用。接着用一套算法过滤掉非视觉文本概念。以“马”这个概念为例，算法会持有“奔腾的马”、“吃草的马”、“带笼罩的马”这些描述词，但会排出诸如“我的马”、“最后一匹马”这样非视觉的描述词。

一旦程序习得了那些描述词是关联的，它就会做在线图片查询，在检索到的照片中寻找存在关联性的图片。比如，当训练过的程序寻找“奔腾的马”相关的图片，它能识别所有与此描述关联的图片。

“诸如词典以及百科全书为主要来源的信息库，直接地向用户展示了可视化信息，主要是因为这些信息容易理解并且可以快速地通过概念查询去浏览。然而，用户手动查询常常限定了查询的范围。不过，新程序无需人员监控，因此它能自动针对任何概念习得视觉知识。”Santosh Divvala介绍说，他既是人工智能艾伦研究所（Allen Institute for Artificial Intelligence ）的一名研究科学家，也是隶属于华盛顿大学计算机科学与工程系（UW in computer science and engineering）一名科学家。

研究团队也包括Carlos Guestrin，他是华盛顿大学计算机科学与工程系（UW in computer science and engineering）教授。三月份研究者发起这个项目时仅有少部分可视化概念，自此以后，超过130万张的图片被用6.5万不同的描述语所标识，他们见证了这些可视化概念增加的过程。

现在，程序在快速习得概念方面的能力很有限，主要受限于处理每条查询的计算能力，对于一些宽泛的概念需要12小时。研究者正加速程序处理速度以及处理能力。

团队希望开源的项目既能满足计算机可视觉化社区教学所需，又可以满足研究者对信息库的需求。与此同时，他们打算提供一个智能手机应用，以便能运行具备自动地解析归类图片功能的程序。

这项研究得到了美国海军研究办公室、全国科学基金以及华盛顿大学的基金资助。

原文发布时间为：2014-07-21

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

码农公寓

相关文章