一篇 Nature Medicine 的独立评测发现:没有任何医学专门改造的通用大模型,在三类医疗基准上全面击败了昂贵的专用临床 AI 工具——甚至打不过免费的谷歌搜索。我们顺着这条线,把金融、法律、代码、生物医学、数学五大领域的「通用 vs 垂域」对比逐一翻到一手论文、带上具体 benchmark 与分数,看看这到底是医疗特例,还是一条普遍规律。
专用 = 在某个领域上「再训练 / 接 RAG 知识库」的模型;通用 = 直接拿来的前沿大模型(GPT/Gemini/Claude)。在医疗领域,通用模型三战全胜,专用临床工具甚至和「免费谷歌搜索 AI」打平。把视野放宽到金融、法律、生物医学——结论不是「通用永远赢」,而是一条更精确的规律:当通用底座存在明显代差时,它的能力增益会盖过领域专精;专用模型的优势窗口,只存在于「窄任务 + 小模型 + 私有数据 + 成本敏感」的夹缝里,且会被通用模型的每一次升级快速侵蚀。
专用临床 AI 工具(如 OpenEvidence、UpToDate Expert AI)正大规模进入医院,厂商宣称凭借领域专门训练 + 检索增强(RAG),性能优于通用大模型。但它们的架构、底座、训练流程全是黑盒,几乎没有独立第三方评测。这篇论文要回答一个尖锐问题:没有任何医学改造的通用前沿模型,能不能直接打赢这些专用工具?
| 阶段 | 数据集 | 规模 | 测什么 | 评分方式 |
|---|---|---|---|---|
| ① 知识 | MedQA(USMLE 执照考风格) | 500 题 | 医学知识 | 选择题自动判对错 |
| ② 对齐 | HealthBench(OpenAI 出品) | 500 项 | 与临床专家一致性 | 三模型评委团 rubric 打分 |
| ③ 实战 | RCQ(本文原创) | 100 题 | 真实世界可用性 | 12 名医生随机盲审 |
三个通用模型全部高于两个专用工具。Gemini 显著优于所有对手(McNemar P<1e-4,对 GPT 也有 P=0.02)。注意这一阶段差距还不算大——选择题是专用工具的「主场」(知识检索型任务),但它们仍然垫底。
差距显著拉大到 15 分以上的鸿沟。GPT 显著优于所有模型(Wilcoxon P<1e-9);分 7 个主题看,GPT 在全部 7 类排第一/并列第一,两个专用工具在全部 7 类排垫底。一旦从「选对答案」转向「像专家一样组织回答」,专用工具的短板就暴露了。
排除 32 条拒答后剩 568 条回答进入分析。结果出现了清晰的两档分层(two tiers),而且加进来的「免费谷歌搜索 AI」直接坐进了专用工具那一档:
P<0.0001)。换句话说:花钱买的专用临床 AI,表现和免费的谷歌搜索 AI 摘要打平。
| 观察 | 结论 |
|---|---|
| 分层在哪个维度最明显 | 清晰度差异最大(Kendall's W=0.292),临床正确性最小(W=0.141) |
| OpenEvidence 的短板 | 清晰度最低(2.84)——弱在「沟通」不在「知识」:内容不全、漏安全关键信息、组织混乱 |
| 拒答率 | UpToDate AI 高达 19%(其他仅 1–3%),谷歌 6%——高拒答=可用性问题 |
| 安全性(有害/幻觉) | 所有模型无显著差异(Cochran's Q,P=0.55 / 0.42)——通用模型赢在质量,但没有更危险 |
| 12 名医生排序 | 高度一致(W=0.651, P=2.3e-7),一致把前沿 LLM 排在专用工具之上 |
这是这次深化的核心。我把金融、法律、代码、生物医学、数学、科学六个领域的「通用 vs 垂域」对比逐一翻到了一手论文,每个领域都给出具体模型、具体 benchmark、具体分数、具体年份与出处。结论不是清一色的「通用全胜」,而是一幅随时间演变、有明确边界条件的图景——而且每个领域都藏着一个「反例」,正是这些反例划出了垂域专用模型真正的边界。
垂域高光:2023.03,Bloomberg + Johns Hopkins 发布 BloombergGPT(arXiv:2303.17564)——50B 参数,训练于 7000 亿 token(其中金融语料约 363B),耗时约 53 天、成本约 300 万美元。它在 5 项金融任务里 4 项夺冠(ConvFinQA、FiQA-SA、FPB、Headline),NER 排第二,全面压制同期开源基座。
反超证据:故事很快反转。注意 BloombergGPT 当年比的是 2022 代开源基座,而不是 GPT-4。等 GPT-4 出来后:
| 研究 | 关键发现 | 数字 |
|---|---|---|
| PIXIU / FinMA (arXiv:2306.05443, NeurIPS'23) | 开源 FinMA-7B 经指令微调,在情感分类上单点反超 GPT-4 | FPB 上比 GPT-4 高 ≈37% F1 |
| FinBen (arXiv:2402.12659, NeurIPS'24) | 36 数据集/24 任务/15-21 个模型横评,GPT-4 综合最强,尤其抽取/文本分析/数值推理/交易 | GPT-4 best overall |
| General-Purpose Solvers (arXiv:2305.05862, EMNLP'23) | GPT-4 zero/few-shot 在金融情感、分类上媲美微调模型;few-shot 再涨 1–4% | 理解类任务追平垂域 |
| FinGPT (arXiv:2306.06031) | 直接点名 BloombergGPT「闭源 + 太贵」,主张开源基座 + LoRA | 微调成本 ≈$300 vs $300 万 |
法律是六个领域里最「分裂」、也最有料的——两派证据都有具体数字,恰好划清了边界。
| 研究 / 模型 | 年份 · 机构 | Benchmark | 关键数字 | 谁赢 |
|---|---|---|---|---|
| SaulLM-54B / 141B | 2024 · Equall.ai NeurIPS'24 | LegalBench-Instruct | 超过 GPT-4 与 Llama-3 | 垂域胜 |
| SaulLM-7B | 2024 · Equall.ai | LegalBench-Instruct | 均分 0.61,领先同级开源 ≈4 分;Legal-MMLU +5 分 | 垂域胜 |
| LegalBench(162 任务) | 2023 · Stanford NeurIPS'23 | 162 任务全套 | GPT-4 Macro-F1 = 77.0 > GPT-3.5 > Claude-1 | 通用最强基线 |
| Vals AI 实时榜 | 2024–25 | LegalBench 全套 | 头部 ≈87–88%,全是 Claude/Gemini/GPT | 通用霸榜 |
| Custom Legal-BERT | 2021 · Stanford ICAIL(CaseHOLD) | CaseHOLD 53k+ 判例 | 比通用 BERT 高 7–12 分 F1 | 垂域胜(窄任务) |
| LawGeex AI(应用层) | 2018 | NDA 风险识别 | 94% vs 20 名律师 85%;26 秒 vs 92 分钟 | 专用胜 |
垂域高光:2024 初 DeepSeek-Coder(arXiv:2401.14196)是代码专用模型的标杆——其 33B-Instruct 在 HumanEval 上 79.3%,论文明说「在多数 benchmark 上超越 GPT-3.5-Turbo,显著缩小与 GPT-4 的差距」;Base-33B 的 MBPP 70.6% 比 CodeLlama-34B 高 5.9 分。
反超 & 反例:当前通用旗舰在 HumanEval 普遍 90%+,在 SWE-bench Verified(真实仓库修 bug)榜单上头部清一色是通用模型驱动的 Agent,代码专用小模型几乎不进头部。但代码恰恰是垂域「幸存生态位」最清晰的领域:
这一领域和主源那篇医疗论文一脉相承,而且有最经典的「分水岭数字」。
| 模型 | 类型 | MedQA(USMLE) | 备注 |
|---|---|---|---|
| GPT-4 + Medprompt | 通用 + 提示工程 | 90.2% | 仅靠 prompt 首破 90%,反超所有专用微调模型 |
| GPT-4(zero-shot 裸跑) | 通用 | ≈86.1–86.7% | 不做任何医学微调即逼近专用 SOTA |
| Med-PaLM 2 | 医学专用微调 | 86.5% | Google 重金医学微调,仅与裸跑 GPT-4 持平 |
| BioGPT | 生物医学专用 | PubMedQA 78.2% | 2022 年关系抽取/QA SOTA,已被通用反超 |
在 BLURB 基准(6 类任务/13 数据集)上,PubMedBERT / BioBERT 等从头领域预训练模型曾长期 SOTA;但 Med-PaLM 2(86.5%)砸了重金做医学微调,却只和裸跑 GPT-4(≈86.5%)打平,而 GPT-4 + Medprompt 仅靠提示工程就冲到 90.2%——OpenMedLM(Nature Sci Reports 2024)由此得出结论:「在医学问答上,提示工程能胜过微调」。
Galactica(120B 科学专用 LLM,训练于 4800 万篇论文)是垂域专精的极致——在 LaTeX 公式探针上 68.2% vs GPT-3 的 49.0%,benchmark 漂亮。但上线 仅 3 天就被迫下架:它会生成格式权威、内容虚假的论文和引用(被讽为「科学造假发动机」),无法区分真伪。教训是:领域专用 ≠ 可信。幻觉与安全问题让纯专精路线在高风险领域受挫,直接推动行业转向「通用强底座 + RAG + 对齐」。
垂域高光:DeepSeekMath-7B(arXiv:2402.03300)只有 7B,却在竞赛级 MATH 上拿到 51.7%(无外部工具/投票),论文称「逼近 GPT-4 水平」,并在 MATH 上超过一众 30B–70B 开源模型,还首创了 GRPO 强化学习算法。早期 Minerva-540B(Google 2022)也曾是数学专用 SOTA。
反超证据:两次逆转。① PaLM 2 技术报告明确:在 GSM8K 上 PaLM 2 同时超过数学专用 Minerva 和 GPT-4——通用模型一升级就反超专用;② o1 时代彻底逆转:OpenAI o1 等通用推理模型在 MATH 上 ≈94%、AIME 上全面碾压所有早期数学专用模型,专用模型的优势被「通用推理能力」整个吞没。
| 领域 | 垂域高光(带数字) | 通用反超证据 | 垂域幸存条件 |
|---|---|---|---|
| 💰 金融 | BloombergGPT 5 任务夺 4;FinMA-7B FPB +37% F1 | FinBen:GPT-4 综合最强 | 窄分类/抽取 + 极致性价比($300 vs $300万) |
| ⚖️ 法律 | SaulLM-141B 超 GPT-4;Legal-BERT +7–12 分 | 162 任务 GPT-4=77.0、实时榜通用霸榜 | 难+窄+强专有性的判例任务;大规模领域续训 |
| 💻 代码 | DeepSeek-Coder-33B 超 GPT-3.5(HumanEval 79.3%) | 旗舰 90%+、SWE-bench 通用 Agent 霸榜 | 本地/隐私/低延迟/成本(Tabby 类) |
| 🧬 生物医学 | PubMedBERT/BioGPT 曾 SOTA(PubMedQA 78.2%) | GPT-4 裸跑 86.5%、+Medprompt 90.2% | 几乎被填平;Galactica 证明专精≠可信 |
| 🔢 数学 | DeepSeekMath-7B MATH 51.7% 逼近 GPT-4 | PaLM 2 超 Minerva+GPT-4;o1 ≈94% 碾压 | 小参数高性价比,但被通用推理吞没 |
| 🩺 医疗(主源) | OpenEvidence/UpToDate 领域训练+RAG | 三战全胜,专用≈免费谷歌搜索 | 几无——连最强监管领域都守不住 |
把所有证据放在一起,能提炼出一条比「通用必胜」更精确、也更实用的判断准则。决定胜负的不是「有没有领域数据」,而是下面这个对比:
① 医疗不是特例:金融(BloombergGPT 被 GPT-4 反超)、生物医学(微调通用 > 领域 BERT)都指向同一方向。② 但「通用永远赢」是错的:法律和代码证明,窄任务 + 小模型 + 约束场景里,垂域专用仍有位置。③ 真正的规律是动态的:通用底座的能力代差一旦拉开,就会盖过领域专精——而底座每升级一代,垂域专用的生存空间就被吃掉一块。结论对从业者很实在:优先押注「最强通用底座 + 检索/工具」,把领域专用留给那些通用模型够不着的工程约束角落。