机器学习正在席卷医学诊断。从眼部疾病,乳腺癌和其他癌症,到更加无定形的神经系统疾病,如果不直接击败AI,AI通常会与他们的表现相匹配。

但是,我们可以将这些结果以多少作为面值呢?在生死决策方面,我们什么时候可以完全相信神秘的算法?”黑匣子甚至他们的创作者也无法完全解释或理解?随着医疗AI跨多种学科和开发人员,包括学术和行业巨头(例如Google,Amazon或Apple)以不同的激励方式,问题变得更加复杂。

上周,双方在一场最负盛名的科学期刊上展开激烈的对决,性质。一方面是多伦多大学玛格丽特公主癌症中心,斯坦福大学,约翰·霍普金斯大学,哈佛大学,麻省理工学院等著名人工智能研究人员。另一面是庞大的Google Health。

触发因素是Google Health在今年1月发表的一项关于乳腺癌筛查的爆炸性研究。这项研究声称已经开发出了一种人工智能系统,该系统在诊断乳腺癌方面的表现远远超过放射科医生,并且可以推广到训练所用人群之外的人群。由于缺乏大型医学成像数据集,这是一个极其艰巨的圣杯。这项研究在媒体界引起了轰动,并在公共领域引起了医疗AI的“成熟”的嗡嗡声。

学者认为,问题在于该研究缺乏对代码和模型的足够描述,其他人无法复制。换句话说,我们只能相信研究的实质,这是科学研究中没有做到的。反过来,Google Health提出了礼貌,细微但果断的反驳,认为他们需要保护患者信息并防止AI受到恶意攻击。

诸如此类的学术论述构成了科学的基础,并且似乎令人难以置信的书呆子和过时了-尤其是因为双方而不是在线渠道,而是诉诸了数百年的笔墨讨论。但是,通过这样做,他们向全世界的广大观众进行了必要的辩论,每一方都取得了坚实的成就,反过来又可以为医学AI的信任和透明性奠定基础,从而造福所有人。现在,如果他们只能说服汉密尔顿和杰斐逊在汉密尔顿举行的内阁大战,就可以说服他们。

学者,请发言

很容易看到学者的论据来自何处。科学常常被描绘成体现客观性和真理的神圣努力。但是,当任何一门学科受到人们的感动时,它很容易出现错误,不良的设计,无意识的偏见,或者(极少数)有意识地操纵以致歪曲结果。因此,科学家在发表结果时会仔细描述他们的方法,以便其他人可以复制研究结果。如果有结论,请说一个疫苗 无论科学家,材料或受试者如何,几乎每个实验室都会发生针对Covid-19的保护性疫苗,然后我们有更有力的证据证明疫苗确实有效。如果不是这样,则意味着最初的研究可能是错误的,然后科学家可以描述原因并继续进行下去。复制对于健康的科学进化至关重要。

但是人工智能研究正在打破教条。

“在计算研究中’尚无法完全访问AI研究的详细信息的广泛标准。这不利于我们的进步,” 玛格丽特公主癌症中心的本杰明·海贝·凯恩斯博士说。例如,计算机代码或训练样本和参数中的细微差别可能会极大地改变训练和结果评估,这是通常无法仅使用文本轻松描述的方面。该团队说,结果是它使得尝试验证复杂的计算管道“不可能”。 (对于学者来说,这相当于脱下手套。)

尽管学者们以Google Health的乳腺癌研究为例,但他们承认这个问题已经广泛传播。通过检查Google Health研究在透明度方面的不足,该团队说:“我们提供了可能对更广泛领域具有影响的潜在解决方案。”这不是不可能的问题。诸如GitHub,Bitbucket等在线存储库已经允许共享代码。其他工具则允许共享深度学习模型(例如ModelHub.ai),并支持Google Health团队使用的框架(例如TensorFlow)。

除了AI模型的细节外,还存在共享这些模型所训练的数据的问题。对于医疗AI来说,这是一个特别棘手的问题,因为其中许多数据集均已获得许可,并且共享可能会引起隐私问题。然而,这并非闻所未闻。例如,基因组学已经利用了数十年的患者数据集-本质上是每个人的遗传“基本代码”-并且存在广泛的准则来保护患者的隐私。如果您曾经使用23andMe祖先唾液套件,并同意将您的数据用于大型基因组研究,那么您将从这些指南中受益。为医学AI设置类似的东西并非不可能。

最后,更高的医疗AI透明度标准将使整个领域受益,包括医生和患者。作者写道:“除了改善可访问性和透明度之外,此类资源还可以大大加速模型开发,验证以及向生产和临床实施的过渡。”

Google Health,您的回应

在斯科特·麦金尼(Scott McKinney)博士的带领下,Google Health并没有把单词切碎。他们的一般论点是:“毫无疑问,评论者的动机是保护未来的患者,以及科学原则。我们认同这一观点。”但是在当前的监管框架下,在公开共享方面我们束手无策。

例如,当涉及发布其模型的版本以供其他人在不同的医学图像集上进行测试时,该团队表示,他们不能这样做是因为其AI系统可能被归类为“医疗设备软件”,监督。无限制地释放可能会导致责任问题,使患者,提供者和开发人员面临风险。

至于共享数据集,Google Health认为他们最大的来源 可以在线访问带有应用程序的应用程序(仅显示一点暗示,他们的组织帮助资助了该资源)。由于道德委员会的原因,其他数据集根本无法共享。

最后,研究小组认为,共享模型的“学习参数”(即如何构建模型的基本内容)可能会无意间使训练数据集和模型受到恶意攻击或滥用。这当然是一个问题:您可能有以前听说过 GPT-3,一种OpenAI算法,令人难以置信地像人类一样书写,足以欺骗Redditors一个星期。但是,需要一个真正生病的人才能将乳腺癌检测工具混为一谈,以达到某种扭曲的满足感。

发生的房间

关于Google Health的学术辩论只是医学AI在全球范围内的一小部分。在2011年9月,国际财团 的医学专家介绍了一套在临床上部署AI的临床试验官方标准,目的是从可信赖的算法中剔除AI蛇油。一点听起来可能很熟悉:医学AI在真实单词中的运行可靠程度,与实验室中良好的培训设置或条件背道而驰。该准则是涉及医疗AI的第一个准则,但不会是最后一个准则。

如果这一切在象牙塔中显得抽象而又高高,则换种方式思考:您现在正在见证发生这种情况的房间。通过公开发布谈判和演讲,AI开发人员正在邀请其他利益相关者加入对话。就像自动驾驶汽车一样,医疗AI似乎是不可避免的。问题是如何在安全,平等的方式下进行评判和部署,同时吸引大量公众信任。

图片来源:马克·曼哈特Pixabay

谢莉·范雪莱(雪莉范雪莉)是一位由神经科学家转变为科学的作家。她在不列颠哥伦比亚大学获得了神经科学博士学位,在那里她开发了用于神经退行性疾病的新疗法。在研究生物大脑时,她着迷于AI和生物技术。毕业后,她前往加州大学旧金山分校(UCSF)研究以血液为基础的能使衰老的大脑恢复活力的因素。她是 ...

关注雪莉: