近几年来,得益于大数据的积累、计算能力的提升,深度学习从学术到工程领域均取得了非常显著的发展与突破,尤其是诸如图像识别、语音识别等实际场景应用。但是,依赖于海量的训练数据、灵活的模型、足够的运算能力以及足以对抗维度灾难的先验经验,从很大程度上来讲妨碍了深度学习技术更为广泛的运用。为此,在全球范围内,众多人工智能领域的学术大师及业界专家上下求索,也由此催生了小数据学习(Learning from limited information),通过更少的数据以及更确定的方法让 AI 学习更加高效。
然而什么是小数据?机器怎样从小数据中学习?小数据学习将从哪些方面改变人工智能的研究与应用?在即将于 7 月 22 - 23 日举行的中国人工智能大会(CCAI 2017)上,特别邀请到日本理化学研究所先进智能研究中心主任 Masashi Sugiyama,现场为所有参会者一解小数据学习之惑,并分享其团队在监督弱化分类方面的最新研究进展。在会前,记者特别采访了 Masashi Sugiyama 教授,接下来,让我们一起先睹为快。
Masashi Sugiyama 是日本理化学研究所先进智能项目组主任( Director of RIKEN Advanced Intelligence Project)。RIKEN 成立于 1917 年,是日本最大的综合研究机构,其中,由 Masashi Sugiyama 领导的先进智能项目组成立于 2016 年,主要着眼于研发下一代 AI 技术,如小数据学习、因果推理(Causal inference)、不确定性学习(Learning with uncertainty)以及假设检验等,同时,还有加速医学、材料科学、制造业的科研进程,解决基础设施管理、社会抗灾能力、老年医疗保健等社会问题。而 Masashi Sugiyama 教授本人的研究领域则包括机器学习的理论和算法(如协变量适应、密度比预估和强化学习等),及其在实际问题中的应用。
记者:什么是小数据学习?为什么要使用小数据学习?如何实现?
Masashi Sugiyama:虽然现在大数据学习仍是主流,但在很多应用领域,收集到足够机器用来学习的庞大的数据是非常昂贵的。在这种情况下,使用小数据进行学习是一个理想的解决方式。但也有它的弊端,因为当进行小数据学习时,我们需要目标领域中强大的先验知识作为支撑,过多先验知识的介入意味着牺牲掉机器学习的灵活性。所以使用有限信息进行学习的精髓在于,使用领域知识之外的相对便宜的数据进行学习。
记者:若小数据学习能够成功,将对哪些 AI 领域造成改变,进而对哪些行业产生影响?
Masashi Sugiyama:利用小数据进行学习是大数据学习的母集,所以说它一方面可以解决大数据学习不能解决的问题,另一方面在大数据学习已经得以应用的领域也能有所发挥,因为使用小数据学习能够在避免使用昂贵数据的同时达到更优的效果。
记者:您和您的团队在小数据学习方面已经取得了哪些进展?
Masashi Sugiyama:多样性对于小数据学习至关重要,因为对于不同的应用场景,收集数据的局限性是不同的。我们正在研发一种通用的算法使其解决机器学习过程中的不同问题,例如将很多不同种类的未标注数据集进行分类、将标注与未标注数据进行分类、半监督学习中的分类问题、充分标注的数据的分类问题等。
记者:日本的科研机构更倾向于哪些 AI 技术及应用的研究?哪些 AI 应用在日本已经落地?
Masashi Sugiyama:日本的机器学习研究人员更多地关注基础研究,当然,同时也会有一些人在科学及工程领域从事应用科学相关的研究工作。在基础研究与应用之间存在很大的鸿沟,如何搭建鸿沟上的桥梁至关重要。所幸,这些建桥的工作在一些领域已经逐渐展开,例如对癌症及老年痴呆的研究、再生医学、制造业、基础设施管理以及抗灾能力提升的研究等方面。
记者:您认为当前 AI 技术发展的瓶颈在哪儿?并请展望 AI 未来的发展方向。
Masashi Sugiyama:私密性、安全性、以及伦理问题会成为人工智能系统发展的瓶颈。在 AI 技术发展之外,如何分析及管理 AI 可能带来的社会问题也是需要重视的方面。
记者:在本届 CCAI 现场,您将带来的演讲主要关于哪些方面?希望观众从中收获怎样的启发?
Masashi Sugiyama:我的演讲题目是《弱监督学习的最新研究进展》,在演讲中我将介绍我们对于弱监督学习下的分类问题的研究成果,包括将两种类别的无标签数据进行分类、将有标签与无标签数据进行分类、一个对于半监督分类问题的通用方法、以及对于有标签数据的分类。最后,我将简单介绍日本理化学研究所先进智能项目组(RIKEN AIP)。
关于 CCAI
中国人工智能大会(CCAI),由中国人工智能学会发起,目前已成功举办两届,是中国国内级别最高、规模最大的人工智能大会。秉承前两届大会宗旨,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办,云栖社区作为独家直播合作伙伴的第三届中国人工智能大会(CCAI 2017)将于 7 月 22-23 日在杭州召开。
作为中国国内高规格、规模空前的人工智能大会,本次大会由中国科学院院士、中国人工智能学会副理事长谭铁牛,阿里巴巴技术委员会主席王坚,香港科技大学计算机系主任、AAAI Fellow 杨强,蚂蚁金服副总裁、首席数据科学家漆远,南京大学教授、AAAI Fellow 周志华共同甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展,汇聚了超过 40 位*人工智能专家,带来 9 场权威主题报告,以及“语言智能与应用论坛”、“智能金融论坛”、“人工智能科学与艺术论坛”、“人工智能青年论坛”4 大专题论坛,届时将有超过 2000 位人工智能专业人士参与。
目前,大会 8 折优惠门票正在火热发售中,点击链接火速抢票:http://ccai.caai.cn/