分享到微信
使用微信扫码将网页分享到微信

9个应用场景告诉你谷歌最新医疗人工智能大模型Med-Gemini是如何战胜GPT-4的

北京美德瑞骨科医生集团

近日,谷歌和DeepMind发布了一篇开放获取(Open Access)论文,介绍了他们最新的用于医疗保健的人工智能工具Med-Gemini,并通过9个应用场景展示了其强大的处理和理解多源模态信息的能力。Med-Gemini目前仍在研究阶段,但根据谷歌研究人员的说法,它在14个流行的行业基准测试中超过了行业标准。

谷歌研究人员介绍说,Med-Gemini 是基于 Google 强大的 Gemini 模型构建的多模态医学专用模型集群,每个模型都有不同的目的和应用。Med-Gemini在处理医学数据时表现出杰出的能力,特别是在理解复杂的多模态(如图像、文本和视频)和长文本内容方面。

Image

1. 高级推理能力:通过自我训练和网络搜索集成,Med-Gemini增强了其推理能力,使模型能够提供对复杂临床查询更准确和细致的回应。这种集成在提升Med-Gemini-L 1.0的性能方面尤为有效,该模型在MedQA(USMLE)基准测试中达到了91.1%的最新最高准确率,这是评估医学问题回答能力的重要标准。

Image
谷歌研究人员认为,Med-Gemini是目前市场上最准确的多模态模型 (LMMs),在流行的医学问答测试MedQA上,Med-Gemini达到了91.1%的准确率,比之前最好的模型高出4.6%。

2. 多模态理解能力:通过微调和定制编码器的使用,Med-Gemini 显著增强了模型对多模态数据的理解和解释能力。这使得Med-Gemini能够有效适应各种医学数据类型,例如心电图。在包括NEJM图像挑战在内的七个多模态基准测试中,Med-Gemini比GPT-4平均提高了44.5%的性能。模型还展示了在多模态医学对话中的潜力,这是增强医疗专业人员与AI系统互动的有希望的应用。

Image
虽然大型语言模型“在不确定性下的临床推理表现不佳”,并且容易出现幻觉和偏差,但谷歌表示,Med-Gemini“在复杂的临床推理任务中比竞争对手(包括GPT-4)更具事实准确性、可靠性和细致性”。研究人员用了14个医疗基准测试Med-Gemini的能力。结果发现,它在10个基准上都取得了最佳表现,远超之前最强的GPT-4模型

3. 高效的长文本处理能力:Med-Gemini在处理长文本数据方面表现出色,这对于有效处理广泛的医疗记录和视频数据至关重要。研究人员不仅通过展示Med-Gemini在电子健康记录中具有执行“大海捞针”任务的能力证明了上述观点,同时指出,Med-Gemini-M 1.5匹敌精心设计的基准,并在医学教学视频问答中设定了新的标准,展示了其在处理复杂医疗场景中提供洞察的能力。研究人员还指出,Med-Gemini在EHR检索方面的改进“有可能通过有效地从大量患者数据中提取和分析关键信息来显著降低认知负担并增强临床医生的能力”。

Image
Med-Gemini在医疗文本摘要和写转诊信方面也超越了人类专家,临床医生对 Med-Gemini 的回复的评价一半以上都好于或等于专家回复。

应用场景

1.Med-Gemini在皮肤科诊断对话中的应用示例

Image

在这个场景中,用户向Med-Gemini咨询有关其腿部和手臂上出现的多个痒性肿块的问题。这些肿块是坚硬的,并且不含液体。用户描述说这些肿块非常痒,以至于他们晚上会因为抓挠而醒来。尽管已经尝试使用非处方药,但并未获得太多缓解。

在对话中,Med-Gemini首先询问用户是否最近接触过新的植物、动物或药物,以尝试找出可能导致症状的原因。用户回答没有新的接触历史。

随后,Med-Gemini请求用户提供患处的图片,以便进行更详细的分析。用户上传了图片后,Med-Gemini根据图片和用户描述的症状,分析并诊断出这可能是结节性痒疹(prurigo nodularis),这是一种导致皮肤形成硬结和瘙痒肿块的皮肤状况。

最后,Med-Gemini建议用户应该去看皮肤科医生进行进一步的评估和治疗。模型还建议了一些可能的治疗方法,比如使用更强效的局部类固醇或其他药物来帮助缓解瘙痒。同时,还建议用户尽量避免抓挠,因为这可能会使情况恶化。

2.Med-Gemini在放射学诊断对话中的应用示例

Image

在这个场景中,用户(可能是一位初级保健医生或放射科医生)向Med-Gemini询问关于患者胸部X光片的问题,并通过提供患者X光片的图像询问有关患者背痛的潜在原因。

Med-Gemini分析了X光片图像,并识别出显示椎间盘退行性病变的迹象。模型讨论了这种情况可能与患者的背痛历史相关,但也强调了疼痛原因的确定需要进一步的调查和检查。此外,Med-Gemini建议进行进一步的检查,比如MRI,以确立背痛的确切原因。

接着,Med-Gemini生成了一份使用非技术性语言的报告,旨在帮助医疗专业人员向患者解释情况,促进医患之间的沟通。在对话过程中,Med-Gemini还能够回答用户关于诊断和患者病史之间关系的问题,展示了其在理解和整合多种信息源(包括文本和图像数据)方面的能力。

上述示例展示了Med-Gemini在医疗影像分析和医疗对话方面的应用潜力,特别是其在支持临床决策和提高医患沟通效率方面的能力。这一场景强调了人工智能在辅助诊断和患者教育中的实际应用价值。

3.Med-Gemini在长文本处理和信息检索方面的应用

该示例展示了Med-Gemini模型在长文本处理和信息检索方面的应用,尤其是在管理和分析庞大的电子健康记录(EHR)数据中的表现。这一图表可能展示了模型如何在一个具体的长文本医学信息检索任务中工作,即从复杂和详尽的健康记录中准确检索出相关信息。

Image

  • 任务概述:描述了Med-Gemini在面对长篇电子健康记录时,如何定位并提取与特定医疗问题相关的信息。这可能包括从数百页的文档中找到关于特定症状、治疗历史或医学测试结果的信息。
  • 处理流程:展示了模型如何接收查询,解析长文本数据,并通过其先进的理解能力来识别和抽取关键信息。这可能涉及到自然语言处理技术,如实体识别、关系抽取和文本摘要。
  • 实际应用示例:提供了一个或多个示例,显示了在特定医疗场景中,Med-Gemini如何操作实际数据。例如,模型可能被要求找到所有提及某种药物副作用的记录片段,或者分析患者的症状进展。
  • 结果和评估:展示了模型执行任务的效果,可能包括与传统方法的比较,如人工检索或其他自动化工具。评估可能侧重于准确性、速度和能够处理的复杂性。
  • 模型的优势:讨论了使用Med-Gemini进行长文本处理的优势,包括提高检索效率、减少误差和提供更深入的洞察。

该示例突出了Med-Gemini在处理和分析大规模和复杂医疗数据方面的能力,特别是在需要精确和快速从大量文本中提取有用信息的医疗环境中。这种能力对于改进病历管理、支持临床决策和促进研究分析具有重要价值。

4. Med-Gemini在分析手术视频中的长文本能力

该示例展示了Med-Gemini在分析手术视频中的长文本能力,特别是在评估关键安全视野(CVS)达成情况方面的应用。CVS是进行腹腔镜胆囊切除术时的一个重要安全标准。

Image

  • 视频数据源:模型分析的视频来自Cholec80数据集,这是一个公认的腹腔镜胆囊切除手术视频库,常用于训练和测试医疗AI模型。
  • CVS的三项标准:CVS的达成定义为满足三个特定标准,确保手术安全进行。这些标凈通常包括确保胆囊管和胆囊动脉的清晰可见和正确识别,以及确认周围没有其他结构的干扰。
  • 详细评估:Med-Gemini对每一个标准进行单独评估,并为每个标准提供详细的解释。这可能包括模型如何利用图像识别技术来确认标准是否满足,例如通过分析图像中的解剖标记和手术工具的位置。
  • 信息呈现:模型的输出可能包括一个可视化的界面,展示CVS评估的结果,并高亮显示满足或未满足每个标准的具体原因。这有助于外科医生理解和回顾手术过程中的关键步骤,确保手术质量和安全。

该示例强调了Med-Gemini在医疗视频分析领域的应用潜力,尤其是其在自动化识别和解析复杂医疗视频内容中的高级能力。这种能力对于支持医疗培训、提高手术监控的质量和效率以及增强临床决策支持系统都有重要的实际意义。

5.Med-Gemini 在处理医学教学视频方面的长文本能力

该示例展示了Med-Gemini在处理医学教学视频方面的长文本能力,特别是在使用视频问答数据集(MedVidQA)解决具体医疗问题的应用。

Image

  • 视频数据源:模型分析的视频来自MedVidQA数据集,这是一个包含多种医疗相关视频和问题的数据集,专为测试和训练医疗AI模型的视频问答能力而设计。
  • 具体问题:图表中的任务是回答关于缓解小腿拉伤的具体问题。这是一个常见的体育伤害,对于物理治疗师的介入尤其重要。
  • 视频分析和问题解答:Med-Gemini识别出与问题直接相关的视频片段(02:22-02:58),在此段中,一位物理治疗师解释并展示了针对这种状况的练习。模型准确地定位到视频中提供解决方案的具体时间段,几乎与MedVidQA数据集中的地面真相时间标注(02:22-03:00)完全一致。
  • 信息呈现:Med-Gemini可能提供了一个交互式的界面或摘要,其中包含视频分析的关键点和对物理治疗师演示的描述,使医疗专业人员或患者能够快速获取和理解相关信息。

该示例强调了Med-Gemini在长时视频分析方面的先进技术和应用潜力,展示了它如何支持更复杂的医疗视频理解任务,这对于医疗教育、实时手术支持和临床决策提供了重要的技术支持。这种能力特别适用于需要综合和解析大量视觉和语言信息的医疗环境。

6.Med-Gemini在手术视频动作识别和标注方面的长文本处理能力

该示例展示了Med-Gemini在手术视频动作预测方面的长文本处理能力。具体来说,该模型分析了来自Surgical Action Recognition (AVOS) 数据集的一个视频,此数据集用于注释视频中的手术动作。

Image

  • 视频数据源:分析的视频来源于AVOS数据集,这是一个设计用来识别和标注手术视频中各种手术动作的数据集。
  • 视频分割和标注:Med-Gemini-M 将视频分段,并基于正在执行的手术动作(例如割开、打结、缝合)为每个段落分配标签。如果没有进行手术动作,该段落被分类为背景。在给定的示例中,模型按照以下时间标注:00:00-00:11为背景;00:12-03:05为割开;03:05-03:15为背景;03:15-04:02为缝合。
  • 动作识别准确性:Med-Gemini的识别和标注与AVOS数据集的地面真相标注非常一致,显示了模型在准确识别和分类手术视频中的动作上的高效能。
  • 信息呈现:模型可能提供一个视觉界面,清晰展示视频的每个部分及其对应的手术动作标签,使手术团队可以实时了解当前和即将执行的手术步骤。

该示例展示了Med-Gemini在手术培训、评估和实时辅助中的应用潜力。通过准确识别和标注手术动作,Med-Gemini可以帮助医疗教育者更有效地设计教学课程,同时也可以支持手术团队在实际手术中更好地跟踪和管理手术过程。

7.Med-Gemini在处理手术视频对话方面的长文本能力

Image

  • 视频源及内容:分析的视频来源于Cholec80数据集,该数据集包含多个腹腔镜胆囊切除手术的视频。这种数据集通常用于训练和评估设计用于医学视频分析和教育目的的模型。
  • 对话互动:Med-Gemini与学习该手术过程的学生进行真实的对话。涉及模型回答关于视频中观察到的步骤的问题,解释手术技术、使用的工具以及手术过程中可能出现的潜在并发症。
  • 分析能力:高亮显示模型解析和理解视频数据中复杂手术程序的能力。它可以展示如何识别手术的不同阶段,注释手术工具和操作,并将它们与最佳实践指南或手术安全检查点相关联。
  • 教育支持:Med-Gemini展示其通过提供与手术相关的解释和补充信息来帮助医学教育。这可能包括详细说明采取某些操作的原因、被操纵的解剖结构以及处理意外情况的提示。
  • 实时反馈:互动还可以显示模型根据学生的问题或评论提供实时反馈,使其成为一个高度互动的学习工具。例如,如果学生询问如何识别安全视角(CVS),模型可以将学生的注意力引导到视频中展示此内容的具体时间戳。

该示例强调Med-Gemini在培训场景中的潜在用途,提供一个动态且响应性强的教学辅助工具,帮助学生和手术培训生通过对话和视频分析理解复杂的程序。

8.Med-Gemini在处理电子健康记录(EHR)对话中的长文本处理能力

Image

该示例详细阐述了如何利用Med-Gemini-M 1.5模型解析庞大的医疗记录,提供患者现有和历史病状的全面概述。这种能力尤其展示在对患者严重肺炎历史的处理上,示例中说明了模型如何通过其长文本理解能力,使用户能够通过友好的界面与复杂的医疗数据进行互动和查询。

9.Med-Gemini在科学信息综合处理方面的长文本处理能力

Image

该模型接收了12篇研究文章的完整PDF内容作为输入,并被指示提供FTO基因座(一个与BMI和肥胖相关的变异区域)与肥胖之间的机制联系的简洁描述,同时附带具体的实验结果支持。

该示例强调了Med-Gemini在处理和综合科学研究信息方面的先进能力,展示了该模型如何帮助科研人员和医疗专业人员更有效地理解和利用复杂的遗传和分子生物学数据。这不仅能提高研究效率,还能帮助制定基于证据的医疗决策。

总结

Med-Gemini模型在多种医学应用中的实用性和潜力,尽管需要进一步的严格评估才能在这一安全关键领域空进行实际部署。谷歌研究人员还指出,未来的工作将包括进一步提升模型的性能,以及扩展其在更广泛医疗任务中的应用。