深度解读 · AI 评测 / 通用 vs 垂域

通用大模型,正在「碾平」垂直领域模型?

一篇 Nature Medicine 的独立评测发现:没有任何医学专门改造的通用大模型,在三类医疗基准上全面击败了昂贵的专用临床 AI 工具——甚至打不过免费的谷歌搜索。我们顺着这条线,把金融、法律、代码、生物医学、数学五大领域的「通用 vs 垂域」对比逐一翻到一手论文、带上具体 benchmark 与分数,看看这到底是医疗特例,还是一条普遍规律。

主源:Nature Medicine · 2026.06.12 · Vishwanath, Oermann et al.(NYU Langone)· DOI 10.1038/s41591-026-04431-5 · 含跨领域延伸与个人见解
一句话抓住重点

专用 = 在某个领域上「再训练 / 接 RAG 知识库」的模型;通用 = 直接拿来的前沿大模型(GPT/Gemini/Claude)。在医疗领域,通用模型三战全胜,专用临床工具甚至和「免费谷歌搜索 AI」打平。把视野放宽到金融、法律、生物医学——结论不是「通用永远赢」,而是一条更精确的规律:当通用底座存在明显代差时,它的能力增益会盖过领域专精;专用模型的优势窗口,只存在于「窄任务 + 小模型 + 私有数据 + 成本敏感」的夹缝里,且会被通用模型的每一次升级快速侵蚀。

01 · 主角登场

01这篇 Nature Medicine 到底测了什么?

专用临床 AI 工具(如 OpenEvidenceUpToDate Expert AI)正大规模进入医院,厂商宣称凭借领域专门训练 + 检索增强(RAG),性能优于通用大模型。但它们的架构、底座、训练流程全是黑盒,几乎没有独立第三方评测。这篇论文要回答一个尖锐问题:没有任何医学改造的通用前沿模型,能不能直接打赢这些专用工具?

🧠
通用前沿 LLM(走 API)
OpenAI GPT-5.2 · Google Gemini 3.1 Pro · Anthropic Claude Opus 4.6
🩺
专用临床 AI(走网页 UI)
OpenEvidence · UpToDate Expert AI——领域训练 + RAG,黑盒
🔎
真实世界对照
Google Search AI Overview——医生日常随手会碰到的「免费搜索 AI 摘要」
⚖️
三层评测 + 双重打分
考试题 → 临床对齐 → 真实查询;自动判分 + 12 名医生盲审

三阶段评测设计:从「考试」走向「真实临床」

阶段数据集规模测什么评分方式
① 知识MedQA(USMLE 执照考风格)500 题医学知识选择题自动判对错
② 对齐HealthBench(OpenAI 出品)500 项与临床专家一致性三模型评委团 rubric 打分
③ 实战RCQ(本文原创)100 题真实世界可用性12 名医生随机盲审
💡 RCQ 是本文最大亮点
这 100 条查询不是编的考题,而是从 NYU Langone 真实临床部署中、医生向一个 HIPAA 合规 GPT 实例发出的匿名真实提问采样而来——是医生看病时真正问 AI 的问题。每条回答由 3 名独立医生盲评,4 个维度(临床正确性 / 完整性 / 安全性 / 清晰度)打 1–4 分,外加「是否有害 / 是否幻觉」二元判断,共产出 1,800 条人工标注
02 · 实验对比

02三场比试,通用模型全赢

阶段① MedQA 选择题准确率(500 题)

USMLE 风格医学知识考试 · 准确率 (%)
Gemini 3.1 Pro
97.4%
GPT-5.2
94.2%
Claude Opus 4.6
90.2%
OpenEvidence
89.6%
UpToDate AI
88.4%
通用前沿 LLM专用临床工具

三个通用模型全部高于两个专用工具。Gemini 显著优于所有对手(McNemar P<1e-4,对 GPT 也有 P=0.02)。注意这一阶段差距还不算大——选择题是专用工具的「主场」(知识检索型任务),但它们仍然垫底。

阶段② HealthBench 临床对齐得分(500 项,0–100)

与临床专家一致性 · rubric 得分(三模型评委团交叉打分,去单模型偏见)
GPT-5.2
88.0
Gemini 3.1 Pro
79.3
Claude Opus 4.6
77.0
OpenEvidence
62.6
UpToDate AI
61.3

差距显著拉大到 15 分以上的鸿沟。GPT 显著优于所有模型(Wilcoxon P<1e-9);分 7 个主题看,GPT 在全部 7 类排第一/并列第一,两个专用工具在全部 7 类排垫底。一旦从「选对答案」转向「像专家一样组织回答」,专用工具的短板就暴露了。

阶段③ RCQ 真实临床查询(12 医生盲审,1–4 分)

排除 32 条拒答后剩 568 条回答进入分析。结果出现了清晰的两档分层(two tiers),而且加进来的「免费谷歌搜索 AI」直接坐进了专用工具那一档:

🥇 第一档:通用前沿 LLM
  • Gemini 3.1 Pro 3.62
  • GPT-5.2 3.54
  • Claude Opus 4.6 3.52
🥈 第二档:专用工具 + 谷歌搜索
  • OpenEvidence 3.24
  • Google AI Overview 3.27
  • UpToDate AI 3.17
🔥 全文最扎心的一句
第一档内部三个通用模型无显著差异,第二档内部也无显著差异,但两档之间 9 个跨档对比全部显著(rank-biserial r=0.5–0.9)。校正评分者宽松度后,专用工具相比 Gemini「拿到更高评分」的几率低 49–87%(OR 0.13–0.51,全部 P<0.0001)。换句话说:花钱买的专用临床 AI,表现和免费的谷歌搜索 AI 摘要打平。

维度细分 & 安全性

观察结论
分层在哪个维度最明显清晰度差异最大(Kendall's W=0.292),临床正确性最小(W=0.141)
OpenEvidence 的短板清晰度最低(2.84)——弱在「沟通」不在「知识」:内容不全、漏安全关键信息、组织混乱
拒答率UpToDate AI 高达 19%(其他仅 1–3%),谷歌 6%——高拒答=可用性问题
安全性(有害/幻觉)所有模型无显著差异(Cochran's Q,P=0.55 / 0.42)——通用模型赢在质量,但没有更危险
12 名医生排序高度一致(W=0.651, P=2.3e-7),一致把前沿 LLM 排在专用工具之上
🟣 我的看法
这篇的方法论比结论更值得偷师:三层评测(考试→对齐→真实 query)+ LLM 评委团交叉打分去单模型偏见 + 用线上真实 query 采样做私有 gold-standard 集,正是「答案横评」最该长成的样子。尤其 RCQ 这一招——用自家产品的真实流量当测试集,比任何公开 benchmark 都更接近线上真实分布,也更难被「刷榜」。值得注意的是:专用工具其实不是更不安全,它输在「答得不够好、不够全、不够清楚」,而这正是底座模型能力代差的直接体现。
03 · 跨领域深度研究

03别的领域也这样吗?六个领域的硬证据全扒

这是这次深化的核心。我把金融、法律、代码、生物医学、数学、科学六个领域的「通用 vs 垂域」对比逐一翻到了一手论文,每个领域都给出具体模型、具体 benchmark、具体分数、具体年份与出处。结论不是清一色的「通用全胜」,而是一幅随时间演变、有明确边界条件的图景——而且每个领域都藏着一个「反例」,正是这些反例划出了垂域专用模型真正的边界。

💡 读这一章的方法
每个领域我都按同一套骨架展开:① 垂域专用模型的「高光时刻」(带原始 benchmark 数字)→ ② 通用模型反超的硬证据(带具体分数)→ ③ 那个「反例」:垂域到底在什么条件下还能赢。看完六个领域,你会发现它们其实在讲同一个故事的六个切面。

💰 领域一 · 金融:从「砸钱自训」到「性价比破产」

垂域高光:2023.03,Bloomberg + Johns Hopkins 发布 BloombergGPT(arXiv:2303.17564)——50B 参数,训练于 7000 亿 token(其中金融语料约 363B),耗时约 53 天、成本约 300 万美元。它在 5 项金融任务里 4 项夺冠(ConvFinQA、FiQA-SA、FPB、Headline),NER 排第二,全面压制同期开源基座。

BloombergGPT vs 同期通用开源基座 · 金融任务得分(论文 Table 8,↑越高越好)
BloombergGPT
FiQA-SA 0.75 / Headline 0.82
BLOOM-176B
0.53 / 0.76
OPT-66B
0.52 / 0.79
GPT-NeoX-20B
0.50 / 0.73
金融专用通用开源基座(2022 代)

反超证据:故事很快反转。注意 BloombergGPT 当年比的是 2022 代开源基座,而不是 GPT-4。等 GPT-4 出来后:

研究关键发现数字
PIXIU / FinMA
(arXiv:2306.05443, NeurIPS'23)
开源 FinMA-7B 经指令微调,在情感分类上单点反超 GPT-4FPB 上比 GPT-4 高 ≈37% F1
FinBen
(arXiv:2402.12659, NeurIPS'24)
36 数据集/24 任务/15-21 个模型横评,GPT-4 综合最强,尤其抽取/文本分析/数值推理/交易GPT-4 best overall
General-Purpose Solvers
(arXiv:2305.05862, EMNLP'23)
GPT-4 zero/few-shot 在金融情感、分类上媲美微调模型;few-shot 再涨 1–4%理解类任务追平垂域
FinGPT
(arXiv:2306.06031)
直接点名 BloombergGPT「闭源 + 太贵」,主张开源基座 + LoRA微调成本 ≈$300 vs $300 万
🔥 金融的「反例」其实强化了规律
唯一能反超 GPT-4 的,是 FinMA-7B 在 FPB 情感分类这种「窄 + 结构化」任务上(+37% F1)——但它在 FinQA / ConvFinQA 数值推理上明显输给 GPT-4。结论很清楚:垂域微调小模型只在「窄分类/抽取」任务上有性价比,一旦要复杂推理,GPT-4 立刻反超。而 FinGPT 给出的成本账更扎心——从头训一个 BloombergGPT ≈ 300 万美元,而 LoRA 微调一个够用的金融模型 ≈ 300 美元,差 1 万倍。

⚖️ 法律:唯一「垂域能超 GPT-4」的硬证据,但有前提

法律是六个领域里最「分裂」、也最有料的——两派证据都有具体数字,恰好划清了边界。

研究 / 模型年份 · 机构Benchmark关键数字谁赢
SaulLM-54B / 141B2024 · Equall.ai
NeurIPS'24
LegalBench-Instruct超过 GPT-4 与 Llama-3垂域胜
SaulLM-7B2024 · Equall.aiLegalBench-Instruct均分 0.61,领先同级开源 ≈4 分;Legal-MMLU +5 分垂域胜
LegalBench(162 任务)2023 · Stanford
NeurIPS'23
162 任务全套GPT-4 Macro-F1 = 77.0 > GPT-3.5 > Claude-1通用最强基线
Vals AI 实时榜2024–25LegalBench 全套头部 ≈87–88%,全是 Claude/Gemini/GPT通用霸榜
Custom Legal-BERT2021 · Stanford
ICAIL(CaseHOLD)
CaseHOLD 53k+ 判例比通用 BERT 高 7–12 分 F1垂域胜(窄任务)
LawGeex AI(应用层)2018NDA 风险识别94% vs 20 名律师 85%;26 秒 vs 92 分钟专用胜
⚠️ 为什么法律出现了「垂域超 GPT-4」?
SaulLM-141B 超过 GPT-4 是全六领域里最硬的「垂域反超」证据,但要看清前提:① 它测的是 LegalBench-Instruct 这一特定子集,不是开放推理;② 它是个 141B 大模型(不是小模型),相当于「在强基座 Mixtral 上做了大规模法律继续预训练」;③ 在完整 162 任务的开放评测和实时榜单上,GPT-4 / Claude / Gemini 等通用前沿模型仍然霸榜。CaseHOLD 则点破了垂域预训练的「有效条件」——只有当任务足够难、足够窄、领域专有性足够强时,领域预训练才显著有效;多数法律 NLP 任务「太简单」,反而掩盖了这种优势。

💻 代码:专用模型曾追平 GPT-3.5,但被通用旗舰甩开

垂域高光:2024 初 DeepSeek-Coder(arXiv:2401.14196)是代码专用模型的标杆——其 33B-Instruct 在 HumanEval 上 79.3%,论文明说「在多数 benchmark 上超越 GPT-3.5-Turbo,显著缩小与 GPT-4 的差距」;Base-33B 的 MBPP 70.6% 比 CodeLlama-34B 高 5.9 分。

HumanEval pass@1(%)· 代码专用模型 vs 通用模型的代际拉开
GPT-4o/Claude 3.5+
90–92%
DeepSeek-Coder-33B
79.3%
GPT-3.5-Turbo
≈72%
WizardCoder-15B
≈57%
CodeLlama-34B
≈48%
通用旗舰代码专用通用上一代

反超 & 反例:当前通用旗舰在 HumanEval 普遍 90%+,在 SWE-bench Verified(真实仓库修 bug)榜单上头部清一色是通用模型驱动的 Agent,代码专用小模型几乎不进头部。但代码恰恰是垂域「幸存生态位」最清晰的领域

🌐 代码专用模型的真实活路(而非比「最强」)
本地部署 + 隐私:Tabby(GitHub 30k+ Star)等自托管补全工具,主打企业代码不出内网、消费级 GPU 即可跑,是 Copilot 的开源本地替代。低延迟 tab 补全:远程 GPT-4 往返延迟高,本地 1.3B–7B 小模型在「敲一下就要出补全」的场景反而更跟手。成本吞吐:海量补全请求下,小模型单位成本远低于调用旗舰 API。——垂域代码模型不是输了,是退到了「在约束下够用且便宜」的角落

🧬 生物医学:通用模型「裸跑 + 好提示」反超专用微调

这一领域和主源那篇医疗论文一脉相承,而且有最经典的「分水岭数字」。

模型类型MedQA(USMLE)备注
GPT-4 + Medprompt通用 + 提示工程90.2%仅靠 prompt 首破 90%,反超所有专用微调模型
GPT-4(zero-shot 裸跑)通用≈86.1–86.7%不做任何医学微调即逼近专用 SOTA
Med-PaLM 2医学专用微调86.5%Google 重金医学微调,仅与裸跑 GPT-4 持平
BioGPT生物医学专用PubMedQA 78.2%2022 年关系抽取/QA SOTA,已被通用反超

BLURB 基准(6 类任务/13 数据集)上,PubMedBERT / BioBERT 等从头领域预训练模型曾长期 SOTA;但 Med-PaLM 2(86.5%)砸了重金做医学微调,却只和裸跑 GPT-4(≈86.5%)打平,而 GPT-4 + Medprompt 仅靠提示工程就冲到 90.2%——OpenMedLM(Nature Sci Reports 2024)由此得出结论:「在医学问答上,提示工程能胜过微调」

🔥 生物医学的「反例」是一场翻车:Galactica
Meta 2022 年的 Galactica(120B 科学专用 LLM,训练于 4800 万篇论文)是垂域专精的极致——在 LaTeX 公式探针上 68.2% vs GPT-3 的 49.0%,benchmark 漂亮。但上线 仅 3 天就被迫下架:它会生成格式权威、内容虚假的论文和引用(被讽为「科学造假发动机」),无法区分真伪。教训是:领域专用 ≠ 可信。幻觉与安全问题让纯专精路线在高风险领域受挫,直接推动行业转向「通用强底座 + RAG + 对齐」。

🔢 数学:7B 专用模型逼近 GPT-4,但通用推理模型彻底逆转

垂域高光:DeepSeekMath-7B(arXiv:2402.03300)只有 7B,却在竞赛级 MATH 上拿到 51.7%(无外部工具/投票),论文称「逼近 GPT-4 水平」,并在 MATH 上超过一众 30B–70B 开源模型,还首创了 GRPO 强化学习算法。早期 Minerva-540B(Google 2022)也曾是数学专用 SOTA。

MATH benchmark 准确率(%)· 数学专用 vs 通用 vs 通用推理模型
o1(通用推理)
≈94%
DeepSeekMath-7B
51.7%
GPT-4(2023)
≈42.5%
Minerva-540B
33.6%
WizardMath-70B
22.7%
通用推理模型数学专用通用(早期)

反超证据:两次逆转。① PaLM 2 技术报告明确:在 GSM8K 上 PaLM 2 同时超过数学专用 Minerva 和 GPT-4——通用模型一升级就反超专用;② o1 时代彻底逆转:OpenAI o1 等通用推理模型在 MATH 上 ≈94%、AIME 上全面碾压所有早期数学专用模型,专用模型的优势被「通用推理能力」整个吞没

💡 数学的「反例」最耐人寻味
DeepSeekMath-7B 用 7B 逼近 GPT-4,是「领域数据 > 单纯堆参数」在窄域成立的漂亮证据——但它的胜利窗口只持续到「通用推理模型」(o1/R1 系)出现。一旦通用模型学会了「长链推理」,数学这种最依赖推理的领域反而成了通用模型的主场而非垂域的护城河。这也预示了:当通用能力的进步发生在「推理」这种底层维度上时,它会一次性吃掉大量「靠推理吃饭」的垂域。

📊 六领域汇总:一张表看清「谁在什么条件下赢」

领域垂域高光(带数字)通用反超证据垂域幸存条件
💰 金融BloombergGPT 5 任务夺 4;FinMA-7B FPB +37% F1FinBen:GPT-4 综合最强窄分类/抽取 + 极致性价比($300 vs $300万)
⚖️ 法律SaulLM-141B 超 GPT-4;Legal-BERT +7–12 分162 任务 GPT-4=77.0、实时榜通用霸榜难+窄+强专有性的判例任务;大规模领域续训
💻 代码DeepSeek-Coder-33B 超 GPT-3.5(HumanEval 79.3%)旗舰 90%+、SWE-bench 通用 Agent 霸榜本地/隐私/低延迟/成本(Tabby 类)
🧬 生物医学PubMedBERT/BioGPT 曾 SOTA(PubMedQA 78.2%)GPT-4 裸跑 86.5%、+Medprompt 90.2%几乎被填平;Galactica 证明专精≠可信
🔢 数学DeepSeekMath-7B MATH 51.7% 逼近 GPT-4PaLM 2 超 Minerva+GPT-4;o1 ≈94% 碾压小参数高性价比,但被通用推理吞没
🩺 医疗(主源)OpenEvidence/UpToDate 领域训练+RAG三战全胜,专用≈免费谷歌搜索几无——连最强监管领域都守不住
🌐 把六个领域拼成一条时间线
规律本质是时间维度的:2019–2023 垂域专用(BERT 类 / BloombergGPT / Minerva)靠领域数据在自家 benchmark 领先 → 2023 末 GPT-4 出现,在金融、法律多数任务、医学问答上反超 → 2024 推理模型(o1/R1) 把数学这种「靠推理」的垂域也收编 → 2026 前沿模型(GPT-5.2/Gemini 3.1/Claude Opus 4.6)连医疗这种监管最严、最讲专业性的领域都能三战全胜。通用模型每升级一代(尤其当升级发生在「推理」这种底层维度时),就会吃掉一批垂域专用模型的生存空间。垂域专用的护城河,已从「领域知识」一路退守到「成本 / 延迟 / 隐私 / 部署约束」这几个纯工程维度。
04 · 规律提炼

04那到底什么时候该用专用模型?

把所有证据放在一起,能提炼出一条比「通用必胜」更精确、也更实用的判断准则。决定胜负的不是「有没有领域数据」,而是下面这个对比:

✅ 通用前沿模型更可能赢,当…
  • · 任务开放、需要推理(诊断、法律分析、真实查询)
  • · 看重回答质量 / 完整性 / 清晰度,而非单点知识检索
  • · 通用底座与垂域底座存在明显代差
  • · 你愿意为最强能力付 API 费用
🔧 专用模型仍有价值,当…
  • · 任务很窄、很结构化(固定分类、抽取、格式化)
  • · 本地部署 / 低延迟 / 隐私敏感,不能走外部 API
  • · 成本极度敏感,要在小模型上榨吞吐
  • · 有独家私有数据且任务对最新通用能力代差不敏感
⚠️ 一个关键区分:「专用预训练」≠「检索增强」
这几篇研究打脸的主要是「从头/继续做领域预训练的专用模型」这条路线——它最贵、最容易被通用模型下一代反超。而 RAG(检索增强)+ 通用强底座是另一回事:医疗那篇里专用工具也用了 RAG 却仍然输了,说明问题不在「要不要接知识库」,而在底座本身的能力。正确的姿势越来越像:用最强的通用底座 + 好的检索/工具/路由,而不是从头训一个垂域模型。
🟣 我的看法(结合 search-agent 实践)
这组证据对做 search-agent 的人尤其有启发:与其纠结「要不要 fine-tune 一个领域模型」,不如把精力压在「强通用底座 + 高质量检索/路由/工具调用」上——这正是医疗那篇里专用工具输掉的根因(它们的 RAG 没能弥补底座代差)。领域知识更应该以「可检索的外部记忆」而非「烤进权重的专用模型」形态存在,因为前者能随底座升级自动受益,后者每次底座升级都面临「重训还是被淘汰」的两难。垂域专用的真正护城河,已经从「领域知识」收缩到「成本 / 延迟 / 隐私 / 部署约束」这几个工程维度。
05 · 收尾

05三句话带走

3 / 3
医疗领域通用模型完胜场次
≈ 谷歌
专用临床 AI 的真实水平
2023→2026
通用反超的时间窗
成本/延迟/隐私
垂域专用幸存生态位

医疗不是特例:金融(BloombergGPT 被 GPT-4 反超)、生物医学(微调通用 > 领域 BERT)都指向同一方向。② 但「通用永远赢」是错的:法律和代码证明,窄任务 + 小模型 + 约束场景里,垂域专用仍有位置。③ 真正的规律是动态的:通用底座的能力代差一旦拉开,就会盖过领域专精——而底座每升级一代,垂域专用的生存空间就被吃掉一块。结论对从业者很实在:优先押注「最强通用底座 + 检索/工具」,把领域专用留给那些通用模型够不着的工程约束角落。

⌂ 返回首页 ≡ 返回「分析报告」专栏