2017年是非常酷炫的一年。医疗人工智能发展迅速,人工智能社区也表现出相应的成长与创新。我曾做过一些预测,其中大多数都很模糊。
在技术方面,学术界决定逐步远离越来越难取得进展的、过时的监督学习,而转向生成模型。2017年初,研究者们深入到语音合成,图像和视频生成,超高解析度成像和自动着色等“恐怖谷”问题。到年末的时候,这些任务都至少完成了一部分。
(译者注:恐怖谷理论是由日本机器人专家森昌弘提出的关于人类对机器人和非人类物体的感觉的假设,对于那些模仿人类的机器人,仿真度越高人们越有好感,但是一旦与人类相像超过95%的时候,这种好感度会突然降低,越像人越反感恐惧,直至谷底,称之为恐怖谷。可是,当机器人的外表和动作和人类的相似度继续上升的时候,人类对他们的情感反应亦会变回正面,贴近人类与人类之间的移情作用。)
图像生成
2016年末生成的图像(https://arxiv.org/
abs/1612.03242),上面有可辨识的鸟类,但是像素相当低,并存在一些奇怪的错误(例如,生成了太多的眼睛和腿等等)。
2017年末生成的图像(https://arxiv.org/
abs/1710.10196)仍然存在一些小的伪影,不能完全正确地生成简单的背景。但总的来说,我不能断定他们并非真人。
对图像生成的重视也意味着我们还没看到模型上的重大突破,使其足以立即应用于医疗领域。生成式对抗网络(GAN)也许有助于训练数据的积累,同时,这些系统在学习数据流形边缘方面的表现优于纯粹的监督学习。但迄今为止,我还没有见到任何它们在医疗临床上有说服力的用途。
超高解析度成像技术(译者注:超高解析度成像,是一种提高影片解析度的技术。)被用作为医学影像去噪,降低了(成像过程中所需)辐射剂量。但是,由于超高解析度成像技术对图像的修复是基于总体统计的,我相当怀疑它被用于医疗诊断中是否足够可靠。
这篇2016年的论文(https://arxiv.org/abs/1609.04802)中的图像放大后还是清晰的,并且拥有逼真的织物纹理,但是这个模式和原始的模式已经完全不同了。这个属性也限制了这些模型在医疗领域中的用处,因为不能保证生成的数据能够和真实的数据相吻合。
和医疗领域更关切的、研究人员们一直在谈论的其中一个问题是可解释性(在我看来,这个问题虽然重要,但是其重要性被夸大了,我将会在之后的博客中谈论这个话题),另一个最近在讨论的问题是实验设计和分析的严谨性。这两个主题都是目前医疗应用中的痛点,而后者将需要大量的工作来弥合医学和机器学习社区之间的文化鸿沟。
撇开对应用研究的关注,虽然速度很慢,大多数人还没有注意到,但是2017年是AI开始带来变革的一年。在商业和消费者层面,人工智能应用出现了爆炸性增长,最值得一提的是智能音箱和语音助手。同时,还有更多用于像农业(https://medium.com/s/ai-for-good/why-farmers-are-turning-to-ai-to-boost-yields-379744fa25f3)这样的传统领域的应用。
当然,虽然似乎没人注意到(https://arstechnica.com/cars/2017/12/driverless-cars-became-a-reality-in-2017-and-hardly-anyone-noticed/),2017年11月7日是4级自动驾驶功能(译者注:4级自动驾驶功能是在限定的道路和环境条件下,车辆可以完成绝大部分驾驶操作。智能驾驶技术一共分为5级,5级是全环境下的自动驾驶。)实现(https://www.youtube.com/watch?v=aaOB-ErYq6Y)的日子。这是一个巨大的分水岭,也是第一个由人工智能引起的大规模全行业瓦解的开端。
2017年,我们社区也开始向内审视,使工作更加井然有序。我们不仅看到了算法歧视(译者注:算法歧视,是指在遭遇两难选择时,用算法决定选择牺牲哪一方的利益;
https://www.technologyreview.com/s/608986/forget-killer-robotsbias-is-the-real-ai-danger/),同时,无论是好是坏(https://medium.com/@cody.marie.wild/fair-and-balanced-thoughts-on-bias-in-probabilistic-modeling-2ffdbd8a880f),我们也看到更多人性上的弱点(https://medium.com/@kristianlum/statistics-we-have-a-problem-304638dc5de5)。
在这里我并不想对文化评论太多,主要是因为身为一个澳大利亚人,从地理位置上而言我远离大部分机器学习社区,但有些问题还是需要开诚布公。上一个月我们发现了一起学科内部的性骚扰事件(译者注:指的是12月发生的NIPS大会性骚扰事件),虽然我们还是得等待,看看相关部门是否会跟进,但它所引起的反响还是相当强烈的。他们会努力推进文化变革吗,还是只说不做呢?
在机器学习社区内,这并非一起孤立事件(至少医疗领域有相同的问题(http://www.nejm.org/doi/full/10.1056/NEJMp1715962#t=article)),这要求我们每个人不仅仅要做到“体面”,还要树立更高的道德标准。讨论至今还集中于几个坏蛋身上,但我希望我们所有人都仔细思考这样一个事实:各级别的社区已经容忍这些研究者的行为很久了。正如一位澳大利亚最高军事*曾经说过的,“你能坦然路过的标准就是你所接受的标准。”
视频观看网址:
https://www.youtube.com/watch?v=QaqpoeVgr8U&feature=youtu.be
不要因为出处而感到失望,这是我所看到的来自于机构的关于骚扰和包容的最强有力的信息之一。观察、倾听、付诸实践。
我们可以做得更好,我希望我们作为社区的成员,能够更加积极主动地打击行业中各种形式的骚扰和偏见。
所以,这就是2017。紧随快速概览之后,让我们来看看,之前我是如何预测这一年的。
我的计分卡
去年大约这个时候,我对2017年医疗人工智能的发展做了一系列预测(https://lukeoakdenrayner.wordpress.com/2016/12/31/predicting-medical-ai-in-2017/),现在是时候回头看看这些预测是如何一步步实现的了。
如果你没有读过那篇博客,这里(https://lukeoakdenrayner.wordpress.com/2016/12/27/the-three-phases-of-medical-ai-trials/)我将人工智能在医疗领域的发展分为3个阶段。我并不认为这种分类是看待人工智能研究的理想办法,但用来分析问题的效果还是不错的。
第一阶段的研究是概念验证。使用典型的、通常与临床实践有很好的相关性的小型数据集。在药物领域,成功的第一阶段试验只有10%的概率能够转化成产品,平均花费8年时间才能进入市场。
第二阶段的研究更为严谨。使用大型的数据集,将模型与一些合理的基线进行比较,并在更广泛的场景中呈现可信的结果。这些研究耗时且执行难度很大。我们在2016年进行了独立的第二阶段试验,促成了谷歌视网膜病变评估的论文(https://jamanetwork.com/journals/jama/fullarticle/2588763)的发表,每两篇博客我都会提到这件事一次。
第三阶段的试验才是真正的工作。在一个大型随机对照试验中,人工智能系统被用作实践工具。这涉及到第二阶段没有回答的主要问题:我们如何在实践中使用接近人类水平或超过人类水平的人工智能系统呢?其实如何将超人的人工智能系统安全有效地纳入到临床工作流程中目前仍未清晰,再提一次,我在另一篇博客中描绘了未来的图景。
第一阶段
我曾经预测过,2017年期间,医疗人工智能的研究(定义为医疗数据的深度学习)数量至少增加一倍。这个预言似乎已经实现了。和去年的方法一样,我使用谷歌学术搜索的结果,估算周期为6个月。虽然这是个非常粗略的数字(会议月份出现了巨大的异常值,谷歌学术搜索也不是真正的权威来源),但它至少保持了一致性。
2016年:每月5-10个试验(接近5)
2017年:每月10-20个试验(大概15个左右)
在文献方面的另一个重大变化就是大量的期刊社论、综述文章和关于深度学习的地位陈述方面的文章数量激增。老实说,几乎每个月都有实际的研究论文发表!我在2017年的“其他杂项预测”(第3条)中提到了这个情况,但它的规模之大却让我大吃一惊。
虽然我们可以调侃,更多的人是在谈论深度学习,而不是真正在做深度学习,但我更愿意用积极的眼光看待这一问题。2017年是医生开始认真对待人工智能的一年。各种专家会议、大型和小型期刊、时事通讯、大型圆桌会议、工作小组和治理机构都在讨论人工智能。虽然仍能听到很多反对的声音,但是感觉经历了过去12个月的讨论之后,人工智能好像出现了转机,成为了主流医学时代潮流的一部分。
分值
我虽然准确地预测到了这一点,但很可能低估了大量对人工智能的非研究性的讨论的传播所造成的影响。
第二阶段
我预测人工智能在2017年,将会有3-5个第二阶段的医学试验,主要来自于既有的集团。
这一年以斯坦福大学关于皮肤病的论文(https://www.nature.com/articles/nature21056)在1月份《自然》杂志的出版这一“大爆炸”为开端。
但是后来很长时间又归于沉寂,今年大部分时间都没有再出现大规模的令人信服的试验。
但是随着年末临近,每个人似乎都在忙于发表研究成果。这些研究的大多数成果都有一些不足的地方,或者结论平淡无奇,或者说法夸张,但是他们都可能有资格作为第二阶段的研究。这实际上也是我预测到的一个问题;我并没有明确地定义第二阶段,只给了几种可能的解释。在新的一年里,我将会讨论一些方法来更好地评估第二阶段的研究质量,其实我真正想问的问题是:“是否有一个能够产生可信的结果的大型数据集”?
最有说服力的研究(https://jamanetwork.com/journals/jama/article-abstract/2665774)来自于从病理切片中识别乳腺癌淋巴结转移的大型竞赛(https://camelyon16.grand-challenge.org/)。我以前谈论过这个任务,它很酷也很重要。这篇论文汇集了多个参与者的成果,并与表现良好的人类基线做过比较。我们以后再来讨论这项研究,现在只想公平地说,这项工作的重要性可以与谷歌视网膜病变的论文相提并论。
接下来两个高质量的研究分别是“用卷积神经网络进行心脏病专家级的心律不齐检测(Cardiologist Level Arrhythmia Detection Using Neural Networks,https://arxiv.org/abs/1707.01836)”;和“肌肉骨骼影像学医师级的水平异常检测(MURA Dataset: Towards Radiologist-Level Abnormality Detection in Musculoskeletal Radiographs, https://arxiv.org/abs/1712.06957)”,有趣的是,它们都是来自于斯坦福的机器学习小组。我认为这两项研究是第二阶段“中等质量”的研究,因为虽然能够让我们在一定程度上推断出可信的结果来,但是直接的临床影响并不十分清楚。
如果你忽略一些要求的话,包括检测脑出血(https://arxiv.org/abs/1710.04934),肺炎(https://arxiv.org/abs/1711.05225),髋部骨折(顺便说一下,这是我的团队做的,https://arxiv.org/abs/1711.06504),各种脑病理学(https://arxiv.org/abs/1711.09313)和一个骨龄评估的竞赛(http://rsnachallenges.cloudapp.net/
competitions/4#learn_the_details-news)在内,凭借大型训练集而被分为第二阶段的其他的实验结果至少都通过了吸气测试(sniff test)。但是这些研究和临床实践之间的直接关系是相当不确定的。
分值
我们看到这个类别中有3到5项研究任务,数量不是很确切。我们有3个中等质量或更高质量的第二阶段实验,另外还有6项实验也可以算作第二阶段,但是有一些局限性。
如果我们以谷歌视网膜病变的论文作为衡量标准,那么今年就只有1篇论文了。如果我们对第二阶段有一个更宽松的定义,可能会有多达8篇。我打算给自己的预测一个实实在在的B+的成绩,但有一个限制条件:任何关于这个类别的未来预测都需要更加具体的内容。
我还预测到大多数研究工作将来自既定的集团,而不是大学或初创公司,然而在这点上我却预测错了。实际上是大学和初创公司的混合体,但没有集团性的突破。
第三阶段
2016年,我们没有第三阶段的实验。
2017年,我预测不会有第三阶段的实验。
2017年,我们没有第三阶段的实验。
分值
这个阶段我预测对了,原因很明显是由于临床试验的困难、昂贵和耗时。
其他杂项
我对2017年还做了其他一些预测,其中有部分被证伪了。
1.AR/VR和3D打印不会有多大效果:是的,是真的。这些的确是很酷的技术,但在我看来没有明显的医疗用途。我看过很多是噱头的东西。也许3D打印骨骼支架和器官移植将是一个大的应用,但是如果要应用到临床上似乎还有很长的路要走。
2.1000美元以下的基因组:取决于你找谁报价。最低报价可到450美元。
但如果我们以genome.gov公布的数据为依据的话(这确实是报价的依据),我就真的预测错了。价格仍然在1000美元左右。
3.生物技术的发展将势如破竹:这不是一个被证伪的预测命题,实际上从理念上说是正确的。基因疗法已经获得美国食品药物管理局(FDA)的批准(https://cen.acs.org/articles/95/web/2017/12/First-gene-therapy-genetic-disease.html),而且在今年年底,我们看到历经几十年的发展,这项技术已经趋于成熟,达到真正的分界点。严肃期刊近期发表了许多遗传疾病的单剂量疗法,包括肾上腺脑白质营养不良(adrenoleukodystrophy,http://www.nejm.
org/doi/full/10.1056/NEJMoa1700554)、A型血友病(haemophilia A,http://www.nejm.org/
doi/10.1056/NEJMoa1708483)和脊髓性肌萎缩
(spinal muscular atrophy,http://www.nejm.
org/doi/full/10.1056/NEJMoa1706198)。这可能是医学史上最令人兴奋的消息,远比人工智能更令人兴奋。安全有效的基因疗法将在许多方面成为游戏规则的改变者,而不仅仅是在罕见的遗传病条件下。
4.医疗应用程序:今年的大新闻是,大多数的医疗应用程序,只要不提供实际的医疗建议或医疗数据分析,就不再需要FDA的审查了。所以节食记录、运动监测,服药提醒,诸如此类的应用程序都可以直接向公众销售,而无需监管部门的批准。这个规定将在2018年产生很大的影响,但是我对健康应用程序了解甚少,所以无法用来评判我的预测。一般信息类的应用程序例如Epocrates和MDCalc的下载量很大,再比如,Fitbit及类似这样的应用程序也很流行,但是这些应用并没有让我感到兴奋。因为这些应用是不能显著改善健康状况的。也许更具有针对性的应用或服务,例如糖尿病管理平台(Livongo,https://www.ncbi.nlm.nih
.gov/pmc/articles/PMC5527250/)或奥巴马医疗(https://hbr.org/2017/11/how-digital-health-care-can-help-prevent-chronic-diseases-like-diabetes)更有实际效果。我对自己有关医疗应用程序方面的知识并不自信。如果有人知道很多关于这方面的知识,欢迎写信告诉我。
分值
不知道该得多少分,也许再得一个B+?
总分
两个A,两个B? 好吧,我认为这个分数已经很好了。
来到这里,我们已经简单回顾了2017年医疗(和其他)人工智能世界。我认为我的预测相当准确。技术如此之新,改变如此之缓慢,因此可预测性会更高。我预测明年将是更具爆发性的一年,而且可能将更加难以进行预测。
顺便提一句,如果有时间的话,我认为这种年度总结和预测既有趣又很值得一做。我做了这件事后,加深了对这个行业的理解,提高了对未来一年的研究重点的认识,研究什么可能有用而研究什么可能没多大用。
同样的知名人士Miles Brundage 也做了预测,预测的内容主要围绕着强化学习(RL)和自然语言处理(NLP)技术方面,我急切的等待他跟进2017严谨的预测(http://www.milesbrundage.com/blog-posts/my-ai-forecasts-past-present-and-future-main-post)。
几周内写一篇关于我对2017的预测表现如何(还有一段时间来证明我是正确/错误) 的博客会有问题, 但我认为评价我的预测的布莱尔分数(Brier score)将会是 ~. 45 +/-1... 取决于你如何解决某些问题。
— Miles Brundage (@Miles_Brundage) 2017年12月18日
我去除了所有的统计学,他用布莱尔分数评价,而我用模糊的“氛围”评价。
无论如何,感谢您阅读我在2017年写的文章,我期待着您来年阅读我对2018年的预测。
原文发布时间为:2018-01-13