目录

, , ,

医疗AI

**医疗AI 旨在节钱,但结果却费钱**

作者:Darius Tahir2025 年 1 月 10 日

一名妇女在医疗环境中使用电脑工作的照片。上面放着一张一百美元的钞票。

帮助癌症患者做好艰难决定的准备是肿瘤科医生的工作。然而,他们并不总是记得这样做。在宾夕法尼亚大学健康系统,医生们被一种预测死亡几率的人工智能算法催促着谈论患者的治疗和临终偏好。

但这远不是一种设置好就忘掉的工具。根据 2022 年的一项研究,例行技术检查显示,该算法在新冠疫情期间出现衰退,在预测死亡人数方面下降了 7 个百分点。

这可能会对现实生活产生影响。这项研究的主要作者、埃默里大学肿瘤学家拉维·帕里克 (Ravi Parikh) 说,该工具数百次未能促使医生与需要化疗的患者进行重要的讨论,从而避免不必要的化疗。

他认为,疫情期间,旨在增强医疗保健的几种算法都受到了影响,而宾夕法尼亚大学医学院的算法并非唯一受到影响的算法。帕里克说:“许多机构没有定期监测其产品的性能。”

算法故障是计算机科学家和医生早已承认的一个难题的一个方面,但这开始让医院管理人员和研究人员感到困惑:人工智能系统需要持续的监控和人员配备才能到位并保持其良好运行。

实质上:需要人力和更多的机器来确保新工具不会出错。

斯坦福医疗保健首席数据科学家 Nigam Shah 表示:“每个人都认为人工智能将帮助我们提高获取医疗服务的机会和能力,改善医疗服务等等。所有这些都是好事,但如果导致医疗成本增加 20%,这可行吗?”

政府官员担心医院缺乏资源来测试这些技术。FDA 局长罗伯特·卡利夫 (Robert Califf) 在最近的一次 AI 机构小组会议上表示:“我已经进行了广泛的调查。我认为在美国没有一个医疗系统能够验证临床护理系统中采用的 AI 算法。”

人工智能已在医疗保健领域广泛应用。算法可用于预测患者死亡或病情恶化的风险、提供诊断建议或对患者进行分诊、记录和总结就诊情况以节省医生工作量,以及批准保险索赔。

如果技术传播者是对的,那么这项技术将变得无处不在,而且有利可图。投资公司 Bessemer Venture Partners 已经确定了大约 20 家专注于健康的人工智能初创公司,这些公司每年的收入有望达到 1000 万美元。FDA 已经批准了近千种人工智能产品。

评估这些产品是否有效是一项挑战。评估是否继续有效(或者是否开发出了与垫圈损坏或发动机漏油一样出漏洞的软件)则更加棘手。

以耶鲁大学医学院最近的一项研究为例,该研究评估了六种“早期预警系统”,当患者病情可能迅速恶化时,这些系统会向临床医生发出警报。芝加哥大学医生、为这项研究提供一种算法的公司的联合创始人达娜·埃德尔森 (Dana Edelson) 说,一台超级计算机运行了几天的数据。这个过程卓有成效,显示出六种产品在性能上存在巨大差异。

医院和医疗服务提供商很难根据自身需求选择最佳算法。一般医生身边没有超级计算机,也没有针对人工智能的消费者报告。

“我们没有标准,”美国医学协会前任主席杰西·埃伦菲尔德 (Jesse Ehrenfeld) 表示。“现在没有如何评估、监控和查看算法模型(无论是否支持人工智能)在部署时的性能的标准。”

也许医生办公室里最常见的人工智能产品是环境文档,这是一种技术支持的助手,可以倾听和总结患者的就诊情况。去年,Rock Health 的投资者追踪到有 3.53 亿美元流入这些文档公司。但埃伦菲尔德说:“目前还没有标准来比较这些工具的产出。”

这就是问题所在,因为即使是很小的错误也可能造成毁灭性的影响。斯坦福大学的一个团队尝试使用大型语言模型(ChatGPT 等流行 AI 工具的基础技术)来总结患者的病史。他们将结果与医生的书写进行了比较。

“即使在最佳情况下,模型的错误率也高达 35%”,斯坦福大学的 Shah 说道。在医学领域,“当在写摘要时忘记了一个词,比如‘发烧’——这是一个问题,对吧?”

有时算法失败的原因相当合乎逻辑。例如,底层数据的改变可能会削弱算法的有效性,比如医院更换实验室提供商时。

然而,有时,陷阱会毫无缘由地出现。

波士顿麻省总医院布莱根个性化医疗项目的技术主管桑迪·阿伦森 (Sandy Aronson) 表示,当他的团队测试一款旨在帮助遗传咨询师查找 DNA 变异相关文献的应用程序时,该产品存在“不确定性”问题——即在短时间内多次询问相同的问题时,会给出不同的结果。

阿伦森对于大型语言模型为负担过重的遗传咨询师总结知识的潜力感到兴奋,但“这项技术需要改进”。

如果指标和标准稀少,错误会因为奇怪的原因而出现,那么机构该怎么办?投入大量资源。沙阿说,在斯坦福大学,仅仅审核两个模型的公平性和可靠性就花了 8 到 10 个月的时间和 115 个工时。

专家提出了人工智能监控人工智能的想法,由一些(人类)数据专家监控两者。所有人都承认,这将需要组织花费更多资金——考虑到医院预算的现实和人工智能技术专家的有限供应,这是一个艰巨的要求。

“我们融化冰山,然后建立一个模型来监测他们的模型,这样的设想很棒,”沙阿说。“但这真的是想要的吗?还需要多少人呢?”

达里厄斯·塔希尔

Edit:2025.03.10

**垃圾进,垃圾出——医疗实践中大数据和机器学习的警示**

Joan M. Teno,医学博士,理学硕士[^12](https://jamanetwork.com/searchresults?author=Joan+M.+Teno&q=Joan+M.+Teno)^

JAMA 健康论坛。2023 ;4(2):e230397。doi:10.1001/jamahealthforum.2023.0397

如果计算机能够欺骗人类相信它是人类,那么它就值得被称为智能。 > > 阿兰·图灵

大数据就在这里。越来越多的医疗保健专业人员将使用基于使用人工智能或机器学习的大型数据集的预测规则来做出临床决策。例如,机器学习和数据挖掘已用于大型管理数据库,以预测许多结果,包括哪些患者面临阿片类药物不良事件的风险。最近的一篇文章[^1](https://jamanetwork.com/journals/jama-health-forum/fullarticle/2801776#ajf230004r1)^使用了一个涉及 853 324 名参与者的加拿大药物处方数据库来预测 30 天阿片类药物相关不良事件。报告 C 统计量为 0.82,表明鉴别力良好。此外,关键发现是估计风险的前 0.1 个百分点的阳性似然比为 28.1——这转化为后测概率为 43.1%。现在的问题是,这些类型的发现是否或如何不仅用于阿片类药物处方,还用于其他临床事务。

正如加拿大研究的作者指出的那样,预测规则的有效性取决于其开发过程中使用的管理数据。他们研究中的药品处方数据库缺乏重要的临床信息,例如癌症等医疗诊断或临终关怀登记,这引起了应用这一预测规则的关键问题。因此,需要注意的是,这一拟议的决策规则尚未准备好用于常规用途。

2015 年谷歌识别软件的案例最能说明人们的担忧,该软件使用预测规则为其照片应用的用户标记照片。该软件正确地将身穿学位服的人的照片识别为“毕业”。然而,该软件将网络开发人员Jacky Alcinè(一名海地裔美国人)和他的黑人朋友的照片归类为“大猩猩”。Alcinè 的经历表明,没有适当的数据来制定预测规则可能会带来潜在危害。谷歌随后为这一错误道歉。

在医疗实践中,关键文章[^2](https://jamanetwork.com/journals/jama-health-forum/fullarticle/2801776#ajf230004r2)^ 可以帮助[^3](https://jamanetwork.com/journals/jama-health-forum/fullarticle/2801776#ajf230004r3)^指导临床医生评估基于机器学习的预测规则。美国食品药品监督管理局 (FDA) 也在2021 年 1 月发布了关于人工智能和机器学习作为医疗器械的指南。诸如C 统计量之类的易于应用的标准(范围从 0.5(预测结果不比抛硬币好)到 1.0(完美预测))可能会给出错误的保证,尤其是在数据过度拟合的情况下,当机器学习模型接收到新信息时,数据过度拟合会阻止准确预测。如果输入数据缺乏足够的临床信息,就会出现重要的问题:偏倚风险[^4](https://jamanetwork.com/journals/jama-health-forum/fullarticle/2801776#ajf230004r4)^、候选预测变量的充分性或准确性以及普遍性。

那么,FDA 或医学期刊编辑应如何判断数据集不足是否意味着应谨慎使用预测规则?FDA 和医学期刊的审查指南应制定监督流程,确保预测规则的安全使用,而不会妨碍机器学习的创新。监督需要根据预期用途按风险进行分层。期刊编辑和 FDA 官员需要明确概述他们开发和持续重新评估机器学习预测规则的计划。坦率地说,如果没有正确的数据集,就有可能出现垃圾进,垃圾出。

为了防止这种担忧,开发预测规则以使用机器学习或人工智能指导医疗决策的专业人员应根据系统的文献综述和专家临床医生的见解来选择和审查候选变量。种族、民族、年龄和性别的解释及其在医疗实践中传播偏见的可能性需要仔细考虑[^5](https://jamanetwork.com/journals/jama-health-forum/fullarticle/2801776#ajf230004r5)^

制定这些预测规则的专业人员还必须认识到使用管理数据进行临床决策的局限性。例如,机器学习和人工智能经常使用医疗保险账单数据。然而,医疗保险账单数据可能反映的是医疗专业人员试图最大化报销额度,而不是评估患者的疾病严重程度。随着机器学习的数据集随时间而变化,开发人员必须监督数据的准确性,以及拟议的数据收集规则变化如何影响预测规则的有效性。例如,医疗保险和医疗补助服务中心的支付激励措施导致医疗保险优势计划受益人对合并症的记录过多。对于在高风险情况下使用的预测规则,开发人员和审阅者需要考虑管理数据是否足够。他们可能需要使用疾病登记数据或通过检查潜在风险和益处的随机临床试验来验证规则。即使是大型数据集中包含的单个医疗机构的电子医疗记录数据也可能导致错误的结论。

模型验证还在一定程度上取决于检查预测中的错误,因为数据集中的潜在偏差会导致不准确,从而限制预测规则的临床应用。对于预测,重要的是确定专家临床医生添加到预测模型中的知识,以及这是否会限制预测规则的临床实用性。一种潜在的策略是让专家临床医生审查影响预测的患者个人特征。

由于医学知识在不断发展,专业人员需要不断监测通过机器学习开发的预测规则。在几十年的时间里,艾滋病毒感染的诊断从死刑判决演变为可控制的慢性病。对某些预测规则进行现实世界的监测成为强制性要求,这一点很重要。

尽管使用复杂工具分析复杂数据所需的技术已经出现,但人类监督仍必不可少。在医学期刊和 FDA 努力解决这个问题的同时,我们不应该误以为机器学习算法不需要人类来审查。计算机可能正在学习如何模仿人类行为,但事实上,它们不是人类。

出版日期: 2023 年 2 月 16 日。doi:10.1001/jamahealthforum.2023.0397

Edit:2025.03.10

讨论列表 AKP讨论 查看原帖及回帖