更多深度文章,请关注:https://yq.aliyun.com/cloud
比这个博客系列的其他部分更重要的是,我们今天谈论的内容将最终影响机器是否即将代替医生。
我们将开始探索医疗自动化研究的前沿。在本系列的前几篇文章中,我们只是假设深度学习可以使医疗任务自动化。这样做是有道理的,所以我们可以从中得到一些概念和定义,但现在我们可以直接评估。
未来的重点将是医疗AI的障碍。到目前为止,我们已经讨论了医疗中断的一些外部障碍,如监管和自动化率,但是我们甚至还没有涉及可能减缓医生更换的技术挑战。
今天我们要研究一个绝对是最先进的研究论文。在此我非常感谢论文作者之一 Dr Lily Peng,她彻底回答了我所提出的方法论问题。
针对TL:DR人群,我将在最后总结关于我对这项研究的想法。
研究现状
首先,我想提醒大家——自从2012以来,深度学习就一直作为一种实用的方法。因此,我们甚至没有五年的时间在医学上使用这种资料,而我们医学界人士通常落后一些。有了这个观点,其中一些结果更是令人难以置信,但我们应该承认这只是一个开始。
我要回顾一下我认为是医疗自动化突破的证据的论文,或者增加一些有用的对话。 我会描述研究,但花时间讨论几个关键要素:
任务——这是一项临床任务吗? 如果自动化,医疗实践可能会有多大的干扰? 为什么选择这个特定的任务?
数据——数据如何收集和处理? 它如何适应医学试验和监管要求? 我们可以更广泛地了解医疗AI的数据需求。
结果——是两者平等还是医生被打败? 他们测试了什么? 我们还能收集到什么?
结论——这个交易有多大? 我们可以更广泛地推断出什么呢?
谷歌的JAMA研究糖尿病视网膜病变(2016年12月)
任务:
糖尿病视网膜病变是致盲的主要原因,是由于眼睛后部的细血管受损造成的。这可以通过观察能够看到血管的眼球后部来判断,这是一项靠感觉的任务。
图1.例如,DL系统可能学会识别白色斑点的“棉絮斑”的例子
他们训练了一个深度学习系统来完成与糖尿病视网膜病变评估有关的一些任务。总的结果是“参考”糖尿病视网膜病变的评估,这是中度或严重的眼睛疾病的检测(在本组患者的管理不同于那些“非参考“眼病)。他们还评估了鉴别严重视网膜病变和发现黄斑水肿的能力。
数据:
他们使用了130000视网膜照片来训练系统,每个等级由3到7的眼科医生用决定性的投票以多数票决定。图像是来自从4个地点(美国地EyePACS,3家的印度医院)的回顾性临床数据集,使用各种相机拍摄的。
他们在两个数据集上验证了该系统(在医学中,“验证”一词指的是不用于开发系统的患者,这是机器学习中测试集的同义词)。一个是随机抽样的EyePACS数据和其他从法国3家医院(Messidor-2)公开可用的数据集。后者的数据采用单摄像机的所有图片。这些测试集由一组7-8个眼科专家分级,同样采用多数表决机制。
开发/训练数据有55%视网膜病变的患病率,8%严重恶化。验证数据的患病率远远低于一般的患病率,只有19.5%的患病率只有1.7%的严重或恶化。这是有意的,开发集中有很多阳性病例(他们增加了病例,比通常发生在临床人群中更多)。
关于数据质量,视网膜照片的分辨率通常在1.3到350万像素之间。 这些图像缩小到299像素平方,也就是0.08百万像素(少于94%和98%之间的像素!)。 这是他们所应用的网络架构中的一个特性,其他的图像大小不能使用。
网络:
他们使用了Google Inception-v3深层神经网络的预训练版本,这是目前使用最好的图像分析系统之一。 预训练通常意味着他们已经接受过培训的网络来检测非医疗物体(如猫和汽车的照片),然后进一步对特定医学图像进行了培训。 这就是为什么网络只能接受229 x 299像素的图像。
结果:
本文是我认为医学深度学习的第一重大突破。他们从个人眼科医生以及“中级”眼科医生提出比较的小组中获得了相当的表现。
图2.这就是所谓的ROC的曲线,是判断诊断系统的最佳方式之一。曲线下面积(AUC)结合在一个单一的指标的敏感性和特异性。99.1%是非常好的。
彩色点是眼科医生,黑线是深度学习系统。 如你所见,如果连接彩色点,实际的眼科医生定义了非常相似的ROC曲线*。 如果你不了解ROC曲线,你可以相信我,这是一个有效的方式来表明性能是相同的(FDA将同意我的看法)。
他们的系统检测黄斑水肿非常好,在严重视网膜病变绝对值(AUC值)方面差了些,但与眼科医生的正面比较没有公布这些任务。
讨论:
有一些有趣的事情可以讨论这项研究。
费用:他们雇用了一组眼科医生来标注他们的数据。我应该不需要说明一个外科医生的时间是多么昂贵了吧?那么他们总共有50万个标签。 如果他们按正常利率支付,我们可以说这需要数百万美元。 这比现在这个领域大多数创业公司的现金更多,而且他们肯定无法承担一个单一的标签任务。
统计上来说,数据是权力。对于医疗AI,钱制造数据。所以,钱是权力,谨此作答。
任务:他们从眼睛照片中检测到二元“参考眼病”(中度视网膜病变或恶化),严重的视网膜病变和黄斑水肿。 这些是有用的,是临床上重要的任务。 最重要的是,这些任务涵盖了大多数医生在看糖尿病患者眼睛时所做的工作。 当然,这个系统会错过罕见的视网膜黑色素瘤,但是对于眼睛检查的日常工作,这似乎是一个很好的模拟人类的做法。
数据:数据很有趣,原因有二:质量和数量。
我们可以看到他们需要的数量,因为他们进行了一些实验。 他们用不同数量的训练实例测试了他们的系统执行情况。
他们的系统检测黄斑水肿非常好,在严重视网膜病变绝对值(AUC值)方面差了些,但与眼科医生的正面比较没有公布这些任务。
这给我们一些非常有趣的东西。 他们的训练(至少在97%的灵敏度工作点)上限为6万例。 值得注意的是,这比公开的数据集大一到两个数量级,如果你超过97%的灵敏度,我不怀疑数据的需求会增加。
结果也告诉我们有关数据大小的其他内容。 当他们试图灵感度为90%,但严重或更严重疾病只有84%的灵感度。 识别严重疾病的任务可能更为困难,但我确实注意到“中度或更严重”疾病的训练数据是3到4倍。 绝对数据较少(约9500例vs 34000例),并且患病率也较少(9%为阳性vs30%为阳性)。
机器学习系统与不平衡的数据作斗争,在我的经验中,不平衡比30/70更难处理。它不仅使训练更困难(更少的病例=更少的学习),但它使实际诊断更加困难(这些系统严重偏重于对预测大多数类)。
我们可以看到他们试图处理这个问题。 在筛选人群中,“参考”疾病的患病率在10%以下,所以这是非常不平衡的任务。 该队丰富了训练集和设置额外的阳性病例,因此患病率约为30%。 这似乎很有效,系统对验证队列(其临床普遍性约为8%)上表现很好。 记住,这种方法(少数类的浓缩)只有在有更多的积极的情况下才有效,这是非常罕见的。其他解决不平衡数据的方法仍然存在,但是在解决这个问题的最佳方法上没有真正的共识。
有关于数据质量的两个有趣的东西。
首先,采样/图像缩小。这是不是很荒谬,这个系统可以执行以及减少98%的像素就像人类的专家一样?我们可以说,之所以这个系统执行得如此之好,是因为大部分被丢弃的像素必须是无用的噪音,否则将加深对深层学习系统的训练。毫无疑问,人类比计算机更善于忽视视觉噪音,所以这可能是真的。
但是也可能已经丢弃了有用的信息,并且系统可以在高分辨率图像上表现更好。 我们不可能知道,因为它们无法测试——这个模型需要减小尺寸。
这个含义实际上是更广泛的。 由于深度学习系统已经大部分用于解读小型照片,因此深度学习从未真正显示出以百万像素大小的图像**的效果。 实际上可能是更高分辨率的图像是不可用的,即使它们包含更多有用的信息。
所以下抽样提出了几个问题。 深度学习能更好地表现出更好的分辨率吗? 低分辨率是否适合所有医疗任务? 我们甚至可以从技术角度使用更高分辨率的图像进行深层学习吗?我们不知道这些问题的答案,尽管我们将在接下来的几周里看一些其他的论文来缩小这个问题。
有趣的数据质量的第二个方面是标签的质量。 在机器学习中,我们需要一个很好的理性。 这意味着我们希望训练数据被正确标注,因此视网膜病变的实例实际上有视网膜病变。 这比说起来更难,因为医生不同意。作者再次提供数据。
你可以看到,对于中度或以上的疾病,在80%的时间里至少有一个医生与共识有不同的解释。这就是为什么使用了一致的标签,这是为了减少个人所犯的错误。
标记错误将始终存在于这些数据集中,并且会损害模型性能。 深度学习可以学习任何你给它的东西,如果你给它错误的标签,它会学会做错误的诊断。
共识并不是解决这个问题的唯一方法。 一些任务有更好的基础真理,下周我将会看一篇关于皮肤病变的论文。 该论文中的每个病变都有活检证实的诊断,这仍然是由病理学家解释,但变化不大。 在极端的情况下,一些任务有完美的标签。 我自己的一个项目盯着一个不能被误解的标签——死亡率。
我认为关于标签的关键在于你得到你所投入的东西。如果你使用个别医生的标签,充其量你会像那个医生一样好。如果你使用共识报告,你应该能稍微胜过个人。如果你使用了完全明确的事实,你也许能完美地完成这项任务。
影响:像这样的东西可以很好地作为一个筛选工具,我真的很欣赏作者提交他们的结果的方式。他们展示了机器操作就像一个眼科医生的结果(假阳性率较低,但缺少一些阳性病例),并且还展示了系统优化筛选时的结果(识别几乎所有阳性病例,但还有一些假阳性)。
这是一件很重要的事情。这些系统比人类医生有一个主要的优势:人类医生在假设的ROC曲线上有一个单一的操作点,这是基于他们的经验的灵敏度和特异性的平衡,并且是非常难以任何可预测的方式改变的。 相比之下,这些系统可以在其ROC曲线的任何地方运行,无需额外的培训。你可以在诊断和筛选模式之间进行切换,而不需要额外的费用,并且知道如何进行进一步的实验取舍。这种灵活性非常酷,在为实际临床情况设计测试时非常有用。
考虑到监管,这项研究真的很接近于能够过渡到临床使用。 他们验证了真实世界筛选数据集中的模型,每个案例都有多个读者。 这被称为MRMC研究(多重引导器,多酶),并且是FDA用于计算机辅助检测系统的一般证据标准。这是否与诊断系统有关并不完全清楚,但如果这个系统或类似的系统在今年或之后获得FDA批准,我不会感到惊讶。
在医疗费用方面,这项任务的影响是中等的。眼科并不是医学的一大部分,成本很高,并且检查眼睛在眼科预算中并不是一个大项目。
人类的影响可能是巨大的。发展中国家的糖尿病越来越流行,眼科专家大量短缺,因此这种技术有着强烈的人道主义作用。考虑到处理图像的低分辨率要求,如果你将该系统与低成本且易于使用的手持式视网膜摄像机配对,可以拯救数百万人的生命。
最终,即使视网膜病评估是自动化的,对医疗工作的影响也相当有限。事实上,我认为这是一种任务,当它是自动化时很容易导致对医生的需求增加,因为以前未确诊的病人现在需要进一步的评估和治疗。
然而这仅仅是视网膜病变的评估。 在我们再看几篇论文之后,我们将能够考虑一些对医疗自动化轨迹的一般含义。
接下来我会看看斯坦福大学声称他们的深入学习系统可以实现“皮肤病学家水平对皮肤癌的分类”的论文。
总结/TL:DR
1.Google(和合作者)训练了一个系统,以检测糖尿病视网膜病变(其导致全世界5%的失明),与一组眼科医生共同完成。
2.这是一个有用的临床任务,这可能不会节省大量资金,也不会取代医生,但具有很强的人道主义动机。
3.他们使用130,000个视网膜图像进行训练,比公开的数据集大1到2个数量级。
4.他们用更积极的案例丰富了他们的训练集,大概是为了抵消训练对不平衡数据的影响(一个没有共识解决的问题)。
5.由于大多数深入学习模型都针对小型照片进行了优化,图像被大量采样,丢弃了90%以上的像素。我们还不知道这是否是一件好事。
6.他们使用一组眼科医生来标注数据,可能花费数百万美元。这是为了实现比任何单个医生的解释更准确的“ground-truth”。
7.第5点和第6点是所有当前医学深度学习系统的错误来源,而且这个话题知之甚少。
8.深度学习系统比医生有优势,因为它们可以用于各种“操作点”。相同的系统可以执行高灵敏度筛选和高特异性诊断,而无需再训练。所涉及的权衡是透明的(不像医生)。
9.这是一项极好的研究。这是令人难以置信的可读性,并包含在文本和补充大量的有用的信息。
10.该研究似乎符合目前FDA对510(k)批准的要求。虽然这项技术不太可能通过这一过程,但是该系统或衍生物完全可能在未来一两年内成为临床实践的一部分。
*沿曲线的眼科分布对我来说非常令人惊讶,因为这意味着不同的医生做出非常不同的预测。 其中一些医生有0个假阳性,其他人则有10%的假阳性。 这是一个非常广泛的范围。
**已经使用了一些解决方案,例如首先将图像切割成补丁。但这通常会大量增加负面例子的数量,加剧了数据不平衡的问题。
本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。
文章原标题《The End of Human Doctors – The Bleeding Edge of Medical AI Research (Part 1)》,作者:Luke Oakden-Rayner,南澳大学医学专家 ,译者:董昭男,审校:海棠
文章为简译,更为详细的内容,请查看原文