清华校友立功！谷歌发布首个全科医疗大模型，14 项任务 SOTA

2023-08-02 15:07:27 来源：量子位

全球首个全科医疗大模型正式发布：

由谷歌 Research 和 DeepMind 共同打造的多模态生成模型Med-PaLM M，懂临床语言、懂影像，也懂基因组学。

(相关资料图)

在 14 项测试任务中，Med-PaLM M 均接近或超过现有 SOTA，前提是所有任务都使用一组相同的模型权重。

而在 246 份真实胸部 X 光片中，临床医生表示，在高达 40.50% 的病例中，Med-PaLM M 生成的报告都要比专业放射科医生的更受采纳，这表明 Med-PaLM M 并非 " 纸上谈兵 "，用于临床指日可待。

对此，谷歌也自己给出了评价：

这是通用医学人工智能史上的一个里程碑。

所以，Med-PaLM M 具体什么来头？

全球首个全科医疗大模型来了

在正式了解 Med-PaLM M 之前，我们先简单介绍谷歌自建的多模态医学测试基准MultiMedBench。

谷歌表示，在 MultiMedBench 之前，市面上缺乏这样一个全面的多模态医学基准。

该基准由 12 个开源数据集和 14 个单独的任务组成，用于测量通用生物医学 AI 执行各种临床任务的能力。

其中 12 个数据集共包含了六种生物医学数据模式（文本、放射学（CT、MRI 和 X 光）、病理学、皮肤病学、乳房 X 光检查和基因组学），14 个任务则涵盖五种类型（问题回答、报告生成和摘要、视觉问题回答、医学图像分类和基因组变体调用）。

Med-PaLM M 就在上面进行了微调。

正如其名 "M" 代表多模态，Med-PaLM M 相比之前谷歌发布的 Med-PaLM、Med-PaLM-2 等医疗大模型，是一个主打全科、通才的医疗 AI，不仅能回答各种医学问题，还能直接看片、懂基因组学。

它的基本架构是 PaLM-E（多模态语言模型），并采用 ViT 预训练模型作为视觉编码器，具体实现了三种组合：

-PaLM 8B+ViT 4B ( PaLM-E 12B )

-PaLM 62B+ViT 22B ( PaLM-E 84B )

-PaLM 540B+ViT 22B ( PaLM-E 562B )

通过 MultiMedBench 对 PaLM-E 模型进行微调，并将其与生物医学领域对齐，Med-PaLM M 得以诞生。以下是一些实现细节：

（1）数据集和预处理方面，将 MultiMedBench 中所有图像大小调整为 224 × 224 × 3，同时按需使用填充来保留原始纵横比。

（2）由于谷歌的目标是训练一个通用的生物医学 AI 模型，使用统一的模型架构和模型参数，用多模式输入执行多个任务。为此，他们为 Med-PaLM M 提供了特定于各种任务的指令以及一个纯文本的 " 一次性示例 "。

如下图所示的胸部 x 光解读和皮肤病变分类任务所示，这些指令有一种写提示语的味道，以 " 你是一个很给力的放射科助理 " 开头。

（3）训练过程中，作者对 PaLM-E 进行了端到端的微调。在多模态任务中，图像标记与文本标记交错，以形成对 PALM-E 模型的多模式上下文输入。对于所有微调任务，多模式上下文输入最多包含 1 个图像，然而 Med-PaLM M 能够在推理过程中处理具有多个图像的输入。

14 项任务接近 or 超 SOTA，临床战胜 40% 放射科医生

性能评估阶段，作者主要测试 Med-PaLM M 的 " 多面手 "（即全科）能力、突发涌现能力以及放射学报告生成质量（与真实放射科医生进行对比）。

结果显示：

（1）与专业 SOTA 模型和无生物医学领域微调的广义模型（PaLM-E 84B）相比，Med-PaLM M 在 MultiMedBench 上的所有任务、数据集和指标组合（共计 14 项）中，性能均基本接近 SOTA 或超过 SOTA。

需要注意的是，该结果是在没有任何特定任务定制的情况下使用相同的模型权重集实现的。

（2）在 scale 实验中，三个不同规模的 Med-PaLM M 对各类任务的影响各不相同：

粗略来看，对于纯语言任务和需要调整的多模式任务来说，模型越大越好；但对图像分类和胸部 X 光报告生成任务来说，84B 的效果比 562B 表现反而更好一些。

（3）零样本思维链推理能力涌现。Med-PaLM M 可以通过胸部 X 射线图像检测没有训练过的结核病，与针对该类数据集进行专门优化过的 SOTA 结果相比，它的准确率已相差不大。不过，它给出的具体报告还是存在具体错误，说明还有不足。（4）放射性报告生成测试中，80B 参数的 Med-PaLM M 平均有 40.50% 的报告比放射科医生做的更好（被临床医生采纳），而 12B 和 562B，分别为 34.05% 和 32.00%。另外，遗漏和错误率测试显示，Med-PaLM M 12B 和 84B 模型平均每份报告的遗漏率最低，为 0.12，其次是 562B 模型为 0.13。这一结果与 MIMIC-CXR 上人类放射科医生基线报告的相当。

多久能实用？

作为人类首个全科医学大模型，Med-PaLM M 多久能投入实用，想必也是大家关心的问题。

虽然它被 " 自诩 " 为里程碑（主要是因为靠一组模型权重在各种生物医学任务上接近或超过 SOTA），但谷歌也指出目前还有不少局限性待解决。

比如缺乏高质量的测试基准。谷歌表示，这是迄今为止通用生物医学人工智能发展的关键瓶颈，因为只有高质量的基准才能在很大程度上促进相关领域的发展。

而目前的 MultiMedBench 还存在单个数据集大小有限以及模式和任务多样性有限（比如缺乏转录组学和蛋白质组学）等问题。

再比如，扩展（scale）多模态 AI 模型也具有挑战性。

在语言领域，这一操作可以显著提高性能和应急能力。然而，谷歌在 Med-PaLM M 上的初步实验表明，由于医学数据的稀缺性，这对于生物医学任务领域的多模态广义模型来说并没有这么简单。

作者介绍

目前，谷歌仅发布了 Med-PaLM M 的论文。

它一共有两位共同一作，其中一位叫 Tao Tu。

他本科毕业于北理工（2010 年），硕士毕业于清华大学，博士为美国哥伦比亚大学，专业都是医学工程。目前已在谷歌担任软件工程师快两年。

论文地址：