在最新的研究进展中,谷歌的研究人员宣布,其人工智能系统 AMIE (Articulate Medical Intelligence Explorer) 的能力已得到显著提升,从最初的辅助诊断扩展到疾病的长期治疗与管理。在一项随机研究中,AMIE 在与专业患者扮演者进行的多轮会诊中,其管理推理能力与临床医生相当甚至更优。这体现在 AMIE 能够精准地规划检查、治疗和处方,并恰当运用权威临床指南。
原文:https://research.google/blog/from-diagnosis-to-treatment-advancing-amie-for-longitudinal-disease-management/
临床推理的重要性与挑战
有效的临床推理是医疗保健的基石,它涵盖了患者护理中所有关键决策。高质量的临床推理不仅需要准确的诊断,还需要对疾病进展、治疗反应、安全用药,以及在与患者共同决策时合理使用指南或证据进行深入思考。即使在确诊之后,制定最佳管理方案也往往需要持续监测患者的病程和体验,制定个性化的治疗计划,并在知情且共同决策的基础上,根据患者的个体需求、偏好和医疗系统实际情况进行积极调整。虽然大型语言模型 (LLMs) 在支持诊断对话方面展现出了潜力,但它们在长期病程管理推理方面的能力仍有待进一步探索。
AMIE:从诊断到病程管理的跃升
在题为 “迈向用于疾病管理的对话式 AI” 的研究中,谷歌的研究团队展示了 AMIE —— 这款用于医疗推理和对话的 AI 研究系统 —— 在疾病诊断方面已有的卓越能力,并通过整合专门为临床管理推理和对话优化的 LLM 智能体能力,进一步提升了 AMIE 的性能。
这个增强版本的 AMIE 建立在 Gemini 模型家族的核心优势之上,例如先进的长程上下文推理和极低的幻觉率。这使得 AMIE 能够处理疾病的长期(即随时间推移的序列)进展、对治疗的反应以及安全用药和临床指南的相关信息。这标志着 AMIE 的能力从单纯的诊断扩展到在复杂的后续步骤中为患者和临床医生提供更全面的支持。最新的进展表明,AMIE 能够进行长期的医患互动,其推理过程以不断更新的权威临床知识为基础,并能提供符合公认指南的结构化管理方案。
AMIE 现在支持长期疾病管理,其推理基于临床指南,并能根据患者在多次就诊中的需求进行调整。
疾病管理的复杂性
临床护理所面临的挑战远不止初步诊断。疾病管理需要综合考虑诸多因素,包括治疗副作用、患者依从性、生活方式调整,以及不断更新的医学研究和临床指南。对于 AI 系统而言,执行管理推理的能力一直是一个尚未充分探索的难题,而 AMIE 的出现有望改变这一现状。
AMIE 利用 Gemini 的长程上下文能力来访问和分析临床指南,确保其建议以循证医学为基础。
双智能体架构:提升推理能力
为了应对疾病管理的挑战,谷歌的研究团队创新性地采用了双 LLM 驱动的智能体架构,这与人类临床医生处理管理问题的方式有异曲同工之妙。
对话智能体 (Dialogue Agent):直接面向用户,能够根据其对患者病情的即时理解快速做出反应。该智能体负责处理医患对话的各个方面,包括收集患者病情信息、解答患者疑问以及建立医患信任关系。通过运用自然语言处理和共情沟通技巧,对话智能体确保了流畅且引人入胜的用户体验。
Mx 智能体 (Management Reasoning Agent,管理推理智能体):持续且深入地分析现有信息,包括临床指南和患者特异性数据,以优化患者管理方案。Mx 智能体 借助 Gemini 先进的长程上下文能力,能够整合并推理大量信息 —— 包括跨多次就诊的患者对话记录以及数百页的临床指南 —— 并综合考虑所有信息。基于此,Mx 智能体 可以制定结构化的检查、治疗和随访计划,充分考虑到最新的医学证据、既往就诊期间收集的信息以及患者的个体偏好。
AMIE 的双智能体架构:对话智能体与患者互动,而 Mx 智能体则基于临床指南制定结构化的管理计划。管理计划明确了为患者推荐的检查和治疗顺序。
基于临床指南的管理决策
为了确保 AMIE 管理推理的可靠性和安全性,其能力主要通过扩展测试时计算以执行深度推理和结构化约束来实现,同时确保所有建议均以权威的临床知识为基础。AMIE 再次依赖 Gemini 的长程上下文理解能力,使其输出与相关的、最新的临床实践指南和药物处方集保持一致。
这包括从全面的临床指南库中选择和处理文档,这些指南库涵盖了可信来源,例如英国国家健康与护理卓越研究院 (NICE) 指南和 BMJ 最佳实践指南。Mx 智能体 随后使用这些指南来辅助其决策过程,确保其建议以证据为基础,并符合医疗领域的公认最佳实践。
复杂的结构化约束有助于引导模型完成指定的推理策略,而迭代起草和合并生成的计划则有助于提高计划的质量。这使得 AMIE 能够创建个性化的管理计划,这些计划既以证据为基础,又能根据患者的个体需求进行定制。
AMIE 使用具有结构化约束 (A) 的深度推理来创建结构化的管理计划 (B),该计划基于病例分析 (C) 和明确的管理目标 (D),其中包括就诊期间的检查、已安排的检查和治疗建议,所有这些都由引用 (E) 支持。这里展示了一个虚构患者的示例推理过程。
评估 AMIE 的性能:多轮 OSCE 研究
为了严格评估 AMIE 处理长期疾病管理的能力,研究团队进行了一项随机、盲法的虚拟客观结构化临床考试 (OSCE) 研究,该研究模拟了文本聊天会诊。在这项研究中,AMIE 与 20 名初级保健医生 (PCP) 在 100 个多轮会诊病例场景中进行了比较,从而评估了 AMIE 在真实临床环境中的表现。
随机多轮 OSCE 研究概述。
OSCE 研究的多轮会诊设计使研究团队能够评估 AMIE 以下能力:1) 记住和整合来自先前互动的信息;2) 根据不断变化的患者症状和测试结果调整管理计划;3) 在整个治疗过程中与患者保持一致和富有同情心的沟通。
专科医生评估了 AMIE 管理计划在多个标准下的质量,包括适当性、完整性、临床指南的使用以及以患者为中心程度。
专科医生(对计划来源不知情)将 AMIE 的管理计划评为不逊于初级保健医生的计划,并且在治疗精确性方面有统计学意义上的改进。这里的关键指标包括选择适当的检查和避免不适当的检查(即,根据已知信息避免进行不必要的测试)。图中显示了具有统计学意义 (p < 0.05) 差异的 p 值。
此外,患者扮演者和专科医生还评估了 AMIE,以确定其行为是否反映了临床需求和优先事项。研究团队从先前确定管理推理关键特征的工作中获得启发,并基于这些特征创建了一个试验性评估量表,称之为管理推理经验关键特征 (MXEKF)。MXEKF 的关键衡量标准包括优先考虑偏好、约束和价值观、沟通和共同决策、不同方案的对比和选择、管理计划的监测和调整以及预后能力。
AMIE 在关键管理推理指标 (MXEKF) 上表现稳定,并获得了患者扮演者和专科医生的好评。
RxQA:药物治疗推理基准测试
安全有效地使用药物是疾病管理的关键环节。可靠地回忆药物特异性知识,并进行适当的事实性和针对特定主题的推理是必要但非充分的条件。为了衡量 AMIE 在这些方面的能力,研究团队构建了 RxQA,这是一个新颖的多项选择题集,其问题来源于国家药物处方集,包括美国食品和药物管理局 (FDA) 和英国国家处方集 (BNF)。
RxQA 包含 600 道题,旨在评估对药物适应症、禁忌症、剂量、副作用和相互作用的知识掌握程度。这些问题经过了委员会认证的药剂师的仔细验证,以确保其准确性和与临床实践的相关性。
RxQA 基准测试中的示例问题,旨在评估药物知识和推理能力。图中显示的所有数据均为合成数据(真实但非真实患者数据)。
AMIE 在 RxQA 基准测试中取得了优异的成绩,表明其对药物信息和指南有深入的理解。虚线代表随机猜测可达到的准确率。
局限性
尽管这些结果展示了 AMIE 在 AI 医疗应用这一新兴重要领域的潜力,但仍有若干局限性需要考虑。模拟的 OSCE 场景虽然对标准化评估很有价值,但它有意简化了真实临床实践的复杂性,真实临床实践包括病历审查、与电子健康记录的交互以及更广泛的患者和病理情况。在本次评估中,仅选择了来自单一医疗系统的指南,并且没有尝试使其适应当地情况,而适应当地情况正是 AMIE 的潜在优势之一。模拟就诊之间的短暂间隔和基于文本的界面(与真实远程医疗的多模式体验不同)可能低估了现实世界中的难度。MXEKF 量表虽然作为一个试验性评估量表前景广阔,但仍需要进一步验证。
结论与展望
AMIE 在这些评估中表现出的强大性能,代表着在展示对话式 AI 作为辅助医生进行疾病管理的强大工具的潜力方面迈出了重要一步。通过结合长期推理、临床指南 grounding 和多智能体系统设计,AMIE 展示了 AI 系统在差异诊断之外,向长期管理方向发展的 “可能性艺术”。
在真正应用于现实世界之前,还需要进一步研究,以更好地了解 AMIE 对临床工作流程和患者结局的潜在影响,以及系统在现实世界约束下的安全性和可靠性。谷歌已经与临床合作伙伴 开展了一项前瞻性研究。然而,这项工作是负责任地开发 AI 以及利用 AI 改善循证医疗可及性的潜力方面的一个重要里程碑。