据自然杂志网站的报道,在与模拟病人对话并根据病史列出诊断结果方面,一个接受过医学访谈训练的人工智能(AI)系统,表现与人类医生不相上下,甚至有过之而无不及。
这个聊天机器人基于谷歌开发的大型语言模型(LLM),在诊断呼吸系统和心血管疾病等方面的准确性,超过了经过认证的初级保健医生。与人类医生相比,其在医学访谈中获取的信息量相近,在与病人共情方面的排名也更靠前。
这项研究于 1 月 11 日发表在 arXiv 预印本资料库中,尚未经过同行评审。伦敦谷歌健康公司的临床研究科学家、研究的合著者艾伦·卡尔西卡林姆说,”据我们所知,这是首次为诊断对话和采集临床病史而优化设计的对话式人工智能系统。”
这个聊天机器人,被命名为Articulate Medical Intelligence Explorer(AMIE),目前仍处于实验阶段,还没有在真正病人身上进行过测试,而是使用了经过训练的演员扮演病人。
尽管聊天机器人离应用于临床医疗还早,但作者认为,这最终可以在医疗民主化方面发挥作用。马萨诸塞州波士顿哈佛医学院的内科医生亚当·罗德曼说,这种工具可能会有所帮助,但不太可能取代与医生的互动。
他说:”医学不仅仅是收集信息,更重要的是人与人之间的关系。”
在利用 LLM进行医学研究方面,很少有人探讨过这些系统是否能够模仿医生的能力,即了解一个人的病史并利用病史做出诊断。罗德曼说,医科学生花了大量时间进行这方面的训练:”这是灌输给医生的,最重要也是最困难的技能之一。”
开发人员面临的一个挑战,是缺乏可用作训练数据的真实世界医疗对话,加州山景城谷歌健康公司的人工智能研究科学家维韦克·纳塔拉詹是这项研究的共同作者之一。为了应对这一挑战,研究人员设计了一种方法,让聊天机器人在自己的 “对话 “中进行训练。
研究人员利用现有的真实世界数据集(如电子健康记录和转录的医疗对话),对基础 LLM 进行了第一轮微调。为了进一步训练模型,研究人员让 LLM 扮演一个患有特定疾病的人,以及一个具有同理心的临床医生,目的是了解这个人的病史并做出可能的诊断。
研究小组还要求模型扮演另一个角色:评论家,负责评估医生与接受治疗者之间的互动,并就如何改进这种互动提供反馈意见。
这种批评被用来进一步训练 LLM,并生成改进的对话。
为了测试系统,研究人员招募了 20 名经过培训的人假扮病人,让他们与 AMIE 和 20 名经过委员会认证的临床医生进行在线文本咨询。
他们没有被告知是在与人类还是机器人聊天。演员们模拟了 149 个临床场景,然后被要求对他们的体验进行评估。
一组专家也对 AMIE 和医生的表现进行了评分。
所有六个医学专科中,人工智能系统的诊断准确率都达到或超过了医生的诊断准确率。在 26 项对话质量标准中,机器人在 24 项标准上都优于医生,包括礼貌、解释病情和治疗方法、表现得诚实、表达关心和承诺。
卡尔西卡林姆说:”这绝不意味着语言模型在记录临床病史方面优于医生。”
他指出,研究中的初级保健医生不一定习惯通过文本聊天与病人互动,这可能会影响他们的表现。相比之下,LLM 有一个不公平的优势,那就是能快速编写长篇大论、结构优美的答案,从而显得始终体贴入微,不会感到疲惫。
他说,下一步重要的研究工作是开展更详细的研究,评估潜在的偏见,确保系统对不同人群都是公平的。谷歌团队还开始研究与有实际医疗问题的人类,一起测试系统的伦理要求。
新加坡杜克大学-新加坡国立大学医学院的临床人工智能科学家丹尼尔·丁(Daniel Ting)也认为,探测系统是否存在偏差至关重要,这样才能确保算法不会惩罚那些在训练数据集中代表度不高的种族群体。
用户的隐私也是需要考虑的一个重要方面,丁说:”对于目前很多商业化的大型语言模型平台来说,我们还不清楚数据存储在哪里以及如何对其进行分析。”