AKP健食天

医疗AI

**医疗AI 旨在节钱,但结果却费钱**

作者:Darius Tahir2025 年 1 月 10 日

一名妇女在医疗环境中使用电脑工作的照片。上面放着一张一百美元的钞票。

帮助癌症患者做好艰难决定的准备是肿瘤科医生的工作。然而,他们并不总是记得这样做。在宾夕法尼亚大学健康系统,医生们被一种预测死亡几率的人工智能算法催促着谈论患者的治疗和临终偏好。

但这远不是一种设置好就忘掉的工具。根据 2022 年的一项研究,例行技术检查显示,该算法在新冠疫情期间出现衰退,在预测死亡人数方面下降了 7 个百分点。

这可能会对现实生活产生影响。这项研究的主要作者、埃默里大学肿瘤学家拉维·帕里克 (Ravi Parikh) 说,该工具数百次未能促使医生与需要化疗的患者进行重要的讨论,从而避免不必要的化疗。

他认为,疫情期间,旨在增强医疗保健的几种算法都受到了影响,而宾夕法尼亚大学医学院的算法并非唯一受到影响的算法。帕里克说:“许多机构没有定期监测其产品的性能。”

算法故障是计算机科学家和医生早已承认的一个难题的一个方面,但这开始让医院管理人员和研究人员感到困惑:人工智能系统需要持续的监控和人员配备才能到位并保持其良好运行。

实质上:需要人力和更多的机器来确保新工具不会出错。

斯坦福医疗保健首席数据科学家 Nigam Shah 表示:“每个人都认为人工智能将帮助我们提高获取医疗服务的机会和能力,改善医疗服务等等。所有这些都是好事,但如果导致医疗成本增加 20%,这可行吗?”

政府官员担心医院缺乏资源来测试这些技术。FDA 局长罗伯特·卡利夫 (Robert Califf) 在最近的一次 AI 机构小组会议上表示:“我已经进行了广泛的调查。我认为在美国没有一个医疗系统能够验证临床护理系统中采用的 AI 算法。”

人工智能已在医疗保健领域广泛应用。算法可用于预测患者死亡或病情恶化的风险、提供诊断建议或对患者进行分诊、记录和总结就诊情况以节省医生工作量,以及批准保险索赔。

如果技术传播者是对的,那么这项技术将变得无处不在,而且有利可图。投资公司 Bessemer Venture Partners 已经确定了大约 20 家专注于健康的人工智能初创公司,这些公司每年的收入有望达到 1000 万美元。FDA 已经批准了近千种人工智能产品。

评估这些产品是否有效是一项挑战。评估是否继续有效(或者是否开发出了与垫圈损坏或发动机漏油一样出漏洞的软件)则更加棘手。

以耶鲁大学医学院最近的一项研究为例,该研究评估了六种“早期预警系统”,当患者病情可能迅速恶化时,这些系统会向临床医生发出警报。芝加哥大学医生、为这项研究提供一种算法的公司的联合创始人达娜·埃德尔森 (Dana Edelson) 说,一台超级计算机运行了几天的数据。这个过程卓有成效,显示出六种产品在性能上存在巨大差异。

医院和医疗服务提供商很难根据自身需求选择最佳算法。一般医生身边没有超级计算机,也没有针对人工智能的消费者报告。

“我们没有标准,”美国医学协会前任主席杰西·埃伦菲尔德 (Jesse Ehrenfeld) 表示。“现在没有如何评估、监控和查看算法模型(无论是否支持人工智能)在部署时的性能的标准。”

也许医生办公室里最常见的人工智能产品是环境文档,这是一种技术支持的助手,可以倾听和总结患者的就诊情况。去年,Rock Health 的投资者追踪到有 3.53 亿美元流入这些文档公司。但埃伦菲尔德说:“目前还没有标准来比较这些工具的产出。”

这就是问题所在,因为即使是很小的错误也可能造成毁灭性的影响。斯坦福大学的一个团队尝试使用大型语言模型(ChatGPT 等流行 AI 工具的基础技术)来总结患者的病史。他们将结果与医生的书写进行了比较。

“即使在最佳情况下,模型的错误率也高达 35%”,斯坦福大学的 Shah 说道。在医学领域,“当在写摘要时忘记了一个词,比如‘发烧’——这是一个问题,对吧?”

有时算法失败的原因相当合乎逻辑。例如,底层数据的改变可能会削弱算法的有效性,比如医院更换实验室提供商时。

然而,有时,陷阱会毫无缘由地出现。

波士顿麻省总医院布莱根个性化医疗项目的技术主管桑迪·阿伦森 (Sandy Aronson) 表示,当他的团队测试一款旨在帮助遗传咨询师查找 DNA 变异相关文献的应用程序时,该产品存在“不确定性”问题——即在短时间内多次询问相同的问题时,会给出不同的结果。

阿伦森对于大型语言模型为负担过重的遗传咨询师总结知识的潜力感到兴奋,但“这项技术需要改进”。

如果指标和标准稀少,错误会因为奇怪的原因而出现,那么机构该怎么办?投入大量资源。沙阿说,在斯坦福大学,仅仅审核两个模型的公平性和可靠性就花了 8 到 10 个月的时间和 115 个工时。

专家提出了人工智能监控人工智能的想法,由一些(人类)数据专家监控两者。所有人都承认,这将需要组织花费更多资金——考虑到医院预算的现实和人工智能技术专家的有限供应,这是一个艰巨的要求。

“我们融化冰山,然后建立一个模型来监测他们的模型,这样的设想很棒,”沙阿说。“但这真的是想要的吗?还需要多少人呢?”

达里厄斯·塔希尔

Edit:2025.01.11

讨论列表 查看原帖及回帖