一篇 Nature Medicine 的独立评测发现:没有任何医学专门改造的通用大模型,在三类医疗基准上全面击败了昂贵的专用临床 AI 工具——甚至打不过免费的谷歌搜索。我们顺着这条线,把金融、法律、生物医学等领域的「通用 vs 垂域」对比也一并扒出来,看看这到底是医疗特例,还是一条普遍规律。
专用 = 在某个领域上「再训练 / 接 RAG 知识库」的模型;通用 = 直接拿来的前沿大模型(GPT/Gemini/Claude)。在医疗领域,通用模型三战全胜,专用临床工具甚至和「免费谷歌搜索 AI」打平。把视野放宽到金融、法律、生物医学——结论不是「通用永远赢」,而是一条更精确的规律:当通用底座存在明显代差时,它的能力增益会盖过领域专精;专用模型的优势窗口,只存在于「窄任务 + 小模型 + 私有数据 + 成本敏感」的夹缝里,且会被通用模型的每一次升级快速侵蚀。
专用临床 AI 工具(如 OpenEvidence、UpToDate Expert AI)正大规模进入医院,厂商宣称凭借领域专门训练 + 检索增强(RAG),性能优于通用大模型。但它们的架构、底座、训练流程全是黑盒,几乎没有独立第三方评测。这篇论文要回答一个尖锐问题:没有任何医学改造的通用前沿模型,能不能直接打赢这些专用工具?
| 阶段 | 数据集 | 规模 | 测什么 | 评分方式 |
|---|---|---|---|---|
| ① 知识 | MedQA(USMLE 执照考风格) | 500 题 | 医学知识 | 选择题自动判对错 |
| ② 对齐 | HealthBench(OpenAI 出品) | 500 项 | 与临床专家一致性 | 三模型评委团 rubric 打分 |
| ③ 实战 | RCQ(本文原创) | 100 题 | 真实世界可用性 | 12 名医生随机盲审 |
三个通用模型全部高于两个专用工具。Gemini 显著优于所有对手(McNemar P<1e-4,对 GPT 也有 P=0.02)。注意这一阶段差距还不算大——选择题是专用工具的「主场」(知识检索型任务),但它们仍然垫底。
差距显著拉大到 15 分以上的鸿沟。GPT 显著优于所有模型(Wilcoxon P<1e-9);分 7 个主题看,GPT 在全部 7 类排第一/并列第一,两个专用工具在全部 7 类排垫底。一旦从「选对答案」转向「像专家一样组织回答」,专用工具的短板就暴露了。
排除 32 条拒答后剩 568 条回答进入分析。结果出现了清晰的两档分层(two tiers),而且加进来的「免费谷歌搜索 AI」直接坐进了专用工具那一档:
P<0.0001)。换句话说:花钱买的专用临床 AI,表现和免费的谷歌搜索 AI 摘要打平。
| 观察 | 结论 |
|---|---|
| 分层在哪个维度最明显 | 清晰度差异最大(Kendall's W=0.292),临床正确性最小(W=0.141) |
| OpenEvidence 的短板 | 清晰度最低(2.84)——弱在「沟通」不在「知识」:内容不全、漏安全关键信息、组织混乱 |
| 拒答率 | UpToDate AI 高达 19%(其他仅 1–3%),谷歌 6%——高拒答=可用性问题 |
| 安全性(有害/幻觉) | 所有模型无显著差异(Cochran's Q,P=0.55 / 0.42)——通用模型赢在质量,但没有更危险 |
| 12 名医生排序 | 高度一致(W=0.651, P=2.3e-7),一致把前沿 LLM 排在专用工具之上 |
这是你最关心的问题。我把金融、法律、生物医学、代码几个领域的「通用 vs 垂域」对比都翻了出来——结论并不是清一色的「通用全胜」,而是一幅随时间演变、有边界条件的图景。
把所有证据放在一起,能提炼出一条比「通用必胜」更精确、也更实用的判断准则。决定胜负的不是「有没有领域数据」,而是下面这个对比:
① 医疗不是特例:金融(BloombergGPT 被 GPT-4 反超)、生物医学(微调通用 > 领域 BERT)都指向同一方向。② 但「通用永远赢」是错的:法律和代码证明,窄任务 + 小模型 + 约束场景里,垂域专用仍有位置。③ 真正的规律是动态的:通用底座的能力代差一旦拉开,就会盖过领域专精——而底座每升级一代,垂域专用的生存空间就被吃掉一块。结论对从业者很实在:优先押注「最强通用底座 + 检索/工具」,把领域专用留给那些通用模型够不着的工程约束角落。