发布信息

企业要不要拿自己的数据微调一个"行业大模型"?|(上篇)微调的目的是什么?值不值?开源模型 + Agent 够不够?训完会不会变弱智?(一)

作者:本站编辑      2026-04-27 08:14:45     0
企业要不要拿自己的数据微调一个"行业大模型"?|(上篇)微调的目的是什么?值不值?开源模型 + Agent 够不够?训完会不会变弱智?(一)
我们做了一场严肃的多 agent 二元辩论:6 位顶级 AI 专家(Elon Musk / Andrej Karpathy / Ilya Sutskever / Jensen Huang / John Schulman / Chris Olah)的AI分身从技术、经济、可解释性视角拆解,3 个支持自训立场的角色(航空航天 CEO / 监管律师 / 成功案例研究员)从战略与合规视角应辩,1 个独立 critic 魔鬼代言人全程反驳。复盘 BloombergGPT、IBM Watson、Babylon Health 三个百亿级失败,深扒 NASA-IBM Prithvi、Med-PaLM 2、Lockheed Astris AI、Anduril Maven 四个真正落地的案例——给你一份可以直接拿到下个季度战略会上用的决策框架。

一、"今年到底还要不要继续微调/训练自己的大模型?"

在一个平行宇宙里的2026年:
某火箭制造商在前一年的下半年,动员了公司内的好几家分公司,组织了上百号工程师,用自己积累的数据,对一款主流开源基础模型的小尺寸版本(参数量在百亿以下那种轻量级版本)做了一轮 post-training + LoRA + SFT —— 没动全量参数,更不是从零开始训练,就是在小尺寸开源底座上做参数高效微调(PEFT)+ 监督微调,配合一些任务对齐。算力一部分是去年从云厂商租的,一部分是公司新采购、即将到位的本地集群。底座、数据 pipeline、训练代码、评测脚本——能想到的都搭起来了。
一句话概括 2025年的工作就是"轻量级微调一个别人开源的模型",对应的是工程上的 LoRA / SFT / post-training 这一档颗粒度。
年底的公司年终汇报上,这件事的口径是"取得阶段性成果,初步验证了大模型 + 公司数据微调路线的可行性"。台下点头,台上鼓掌,PPT 翻完,列入下一年度重点立项清单。
但参与项目的工程师都心里有数——真的好用吗?在内部一些场景上"看起来比通用模型更懂我们公司的术语和文档结构",但在另一些场景上"通用模型加点 prompt 反而更好",如果加上点Agent+skill,那效果就更好了。没有一个第三方可信的 benchmark 能下定论说自己训的模型真的更强。年终汇报的"正向评价"更多是组织氛围的产物,不是技术评估的结果。
时间到了 2026 年的 Q1,决策点摆在了公司面前。还要不要继续?训了大半年,停下来怎么交代算力沉没成本,怎么交代几百号人投入的人力账,怎么交代向董事会承诺过的"我们也要有自己的航天大模型"?但如果继续训,问题更棘手:
一方面想加码做多模态微调——不仅因为AI界大模型的进化趋势是多模态,还因为卫星图、CAD、CFD 仿真、风洞数据、飞行试验照片视频,这些非文本数据是真正的独家资产
另一方面又想训自己的"思维链"——通过 SFT / 部分 RLHF,让模型在理解适航条款、理解 MBSE 功能分配、解维修排故时按公司内部认可的"专家推理路径"思考
真正的瓶颈卡在数据上:要把几十年积累的,从纸质文件时代开始遗留的,到现在半吊子信息化系统里的设计文档、试验数据、适航文件、维修工单清洗成可训练的高质量语料,要么投入超过整个项目预算的人力去做,要么质量难以保障——而拿"质量难以保障的数据"去微调训练,已经训出来一次的版本可以作为前车之鉴。
当然了,全量参数全精度训练不在任何一个候选方案里,那是 GPT / Claude / Gemini 这种基础模型公司一年烧几十亿美金做的事。
但是,算力一部分租了,一部分买了,钱已经花出去了。问题不是"要不要做 AI"——这个判断早做完了。问题是"今年这笔继续投入到底应该往哪儿走"。
更微妙的一层是:主导这些事的公司 AI 总师、AI工程师、大模型总师等等,背景是过去十几年做信息化、做数字化转型的老兵。他们对传统 AI 范式很熟——决策树、规则推理、专家系统、深度学习简单分类,他们能讲一整天;但面对 2026 年的大模型,他能想到的就是让大模型去用做流程管理的数据去训练,让大模型“学会”各个业务部门的流程。
会议室里没人反对,也没人觉得这真的能解决问题。有点迷茫
如果你是这家公司的 CEO,你会拍板继续投这笔钱吗?
如果你是这家公司的 CTO,你会怎么向 CEO 解释"我们的微调到底产出了什么"?
如果你是这家公司的 AI 总师,你怎么定义"我们应该怎么对待大模型"这件事,让它不再是"低代码/RAG/知识图谱 + 大模型"那种把新工具塞进旧框架的糊弄方案?
这道题——还要不要继续微调训练自己的大模型?继续训的方向是什么?停下来又往哪儿转?——不仅仅是这一家航天制造商面对的题。
它的对应版本可以是欧美航空航天巨头的(Boeing / Airbus / Lockheed Martin / Northrop Grumman / Raytheon / SpaceX),也可以是亚洲与新兴航空航天工业体内任何一家做大型客机、运载火箭、卫星、无人机、航发的型号研制单位与制造商。只要这家公司曾经认真做过或正在做"用我们自己的数据,在开源基座上做一次完整 continued pretraining + SFT,希望得到一个'企业大模型'乃至‘行业大模型’"——它就在面对同一道题
特别是商用飞机、大型运载火箭、能源、钢铁这种赛道的头部企业——这类企业天然会觉得"我最了解行业,我训出来的,就是整个行业大模型"。这个心理预设是这场迷茫的一部分根源。
几乎所有的玩家都低估了这道题的颗粒度,也低估了答错的代价。
先把答错的代价放出来:2023 年夏天,彭博社(Bloomberg)真的尝试过一次。他们用 50B 参数 + 711B tokens(其中 369B 是 Bloomberg 自 2007 年起独家积累的金融语料:财报、市场分析、SEC 文件、内部通讯),烧了大约 1000 万美金,训出了 BloombergGPT。
结果是什么?Queen's University 的独立研究发现,OpenAI 的 GPT-4 在没有读过任何 Bloomberg 数据的情况下,在 FinQA 金融问答数据集上 zero-shot 准确率达到 68.79%,反过来超过了 BloombergGPT。这个案例被总结成一句话:「最聪明的通用前沿模型,在专业领域里反而比专门训出来的模型更强。你以为很值钱的私有数据,在大模型时代可能没你想的那么有用。」
这句话不是营销文案,是过去三年贴在每一个考虑"自训行业大模型"董事会墙上的警告。
但仍然有一种声音坚持:"航空航天行业不一样。我们的数据更稀缺、监管更严、模态更独特。我们应该有自己的大模型。"
这个声音对吗?
接下来的近两万字,我们让 6 位顶级 AI 专家的AI分身 + 3 个支持自主训练立场的角色(CEO / 监管律师 / 成功案例研究员)+ 1 个独立 critic 一起辩论这件事,最后由主持人合成判决。

二、先把"自训"这个词的颗粒度拉细

辩论之前,必须先解决一个语义雾霾。
公众号文章里、董事会里、媒体头条里说的"自主训练大模型",其实是 5 件完全不同的事,从最贵到最便宜排列大致是:
#
颗粒度
它到底在做什么
单次投入代价
谁在做
1
From-scratch pretraining
从零开始预训练一个百亿到千亿参数的基础模型
$50M-$500M+
极少:基础模型公司(OpenAI/Anthropic/Google/DeepSeek)
2
Continued pretraining (CPT)
在开源底座上加几十到几百 B 私有 token 继续训
$500K-$10M
部分防务承包商(如 Scale AI Donovan)
3
SFT / DPO / RLHF
几万到几百万示例做监督微调 / 偏好优化
$10K-$500K
大量企业
4
LoRA / Adapter
任务特定的低秩参数适配
$1K-$50K
已是工程标配
5
RAG + Agent + Tool Use
完全不动权重,外挂检索 / 工具 / agent
$100K-$10M/年 运营
几乎所有企业
这 5 件事的争议程度从上到下急剧下降。RAG/OAG + Agent 没人在反对,标配。LoRA 也没人在质疑。窄任务的 SFT 在共识区间。真正在 2026 年还有大争议、且与"行业大模型 / 企业大模型"叙事直接相关的,是前三件:from-scratch、continued pretraining、宽口径的 SFT / RLHF。
业界绝大多数被宣传成"XX 行业大模型"的项目,真实量级是第 2 + 第 3——开源底座(LLaMA / Qwen / DeepSeek / Mistral)+ 几十到几百 B token 的私有数据 continued pretraining + 几万到几百万示例 SFT,再加上一定程度的 RLHF。少数有政府背景的项目会做到 from-scratch。极少数项目同时做完整 from-scratch + 持续后训练管线(这是 OpenAI / Anthropic / Google 级别的能力栈)。
本文上篇专注讨论这三件事合在一起的命题——"用自己的数据微调出一个'行业大模型',对一家航空航天企业来说到底值不值得?"下篇讲后两件——"用 AI"。
为什么 2026 年是回答这道题的关键节点?三条线在这一年交汇:
1.基础模型能力:GPT o-series、Claude 4.7、Gemini 3、DeepSeek-V4-Pro(1.6T MoE / 49B 激活)已经把"通用专家级智能"逼到了几乎所有企业够不着的高度
2.自训成本:7B 模型 fine-tune 单次 < $5;70B continued pretraining 已降至几十万到几百万美金区间
3.监管成熟度:FAA AI Roadmap V1(2024 年 7 月)+ EASA NPA 2023-11 + MITRE-FAA ALUE benchmark + ITAR 对模型权重的认定边界——从前模糊的合规问题开始有答案
这三条线交汇,意味着"要不要自训"这个问题从过去的"技术上可行就做"变成了"必须算清楚 ROI / 折旧 / 合规边界 / 适航债务 才能决策"。
而这道题的难度在于:航空航天行业有 5 个让答案完全不同于互联网 / 金融 / 医疗的独特约束。

三、航空航天的 5 个独特约束

不是要把行业特殊性夸大。是要看清楚下面这 5 条之后再回头看 BloombergGPT 案例——你才能判断它到底外推得动还是外推不动。
约束 1:专业极其多 + 知识迭代极慢 + 历史案例极少 —— 三重数据稀缺。
这是航空航天和医疗法律最本质的区别。
医疗、法律是专而深的领域——专业范围相对收敛,但单一专业内部的 case 海量(一家三甲医院一年的电子病历、一家律所一年的判例评注,都是数十万到数百万级的样本)。所以 Med-PaLM、Harvey 这种"垂直 fine-tune"在数据规模上是说得通的——尽管它们最后也都被通用模型代际反超(后面会讲)。
而航空航天是横向极宽 + 纵向极慢 + 样本极少的复合稀缺:
横向:一个完整的航天 OEM 涉及空气动力学、结构力学、飞行控制、航电、推进、材料、维修性、人因工程、适航工程、构型管理、供应链协同、试飞试验……几十个并行子专业,每个都需要自己的 know-how。
纵向:以MBSE为例, MBSE 的核心逻辑从 1990 年代 INCOSE 奠基至今没有本质变化,CCAR-25 / FAR-25 的条款年度增量很小,结构 / 气动 / 飞控的基础理论几十年没动。这意味着"用微调追上最新知识"这个常见动机在航空航天里几乎不成立。
样本:一家飞机 OEM 60 年能造多少个商用机型号?10 个?20个?就算100个吧,和手机 6 个月一代、一年几十个 SKU 的样本规模比起来,连个零头都算不上
这三重稀缺意味着:任何一家航空航天 OEM 想用自己的数据训出"行业大模型",从样本量这个最朴素的统计学角度,都不构成有效的监督学习问题。它能做的是把通用大模型已有的航空知识"组织得更适合自己用",但不能"再造一个比通用模型更懂航空的模型"。
约束 1.5非文本数据是真正的独家资产,但跟"航空大模型"叙事是两件事。
航空航天的非文本数据——卫星图像、SAR 雷达、CFD 仿真、风洞数据、遥测时序、CAD B-rep——巨大且独特,这部分确实是通用大模型预训练分布外的。但这些数据的正确归宿是多模态领域底座(如 NASA Prithvi 那种 vision encoder),不是"航空航天Deeseek"那种语言模型。常被混在"自训"叙事里的,恰恰是这个混淆。
约束 2:安全关键。
任何错误的物理后果可能是一架飞机、一颗卫星、几百条人命。Boeing 737 MAX MCAS 案例(2018-2019 两次坠机,346 人罹难,约 200 亿美金损失)是这个行业过去 10 年最痛的镜鉴——它不是 AI 案例,但它的教训完整适用于任何要进飞控、FADEC、导航、ATM 的 AI:单点失效、隐式集成、培训缺位,三者任一在 AI 时代都会被放大。
约束 3:监管与适航的硬约束。
FAA 的 AI Safety Assurance Roadmap V1 明确"AI/ML 初期只能用于低风险应用",第一批 certification position papers 预计 2026 Q1 出台。EASA 在 2026 年启动第二个 NPA,把 AI Level 1(人辅助)/ Level 2(人-AI 团队)的结构化保证要求整合到飞行操作、ATM、维修等领域规则。CCAR-25 / FAR-25 / DO-178C / DO-254 / ARP4754A 的认证逻辑核心是可追溯、可验证、可审计——这一条对 AI 系统天然不友好。
约束 4:跨代际的生命周期。
飞机型号生命周期 30-50 年,而前沿基础模型的代际跃升节奏在 2026 年是 6-9 个月一代,每代能力提升 20-40%。如果你今天训出的"自有大模型"被绑定到某个型号上,这种生命周期错配意味着你要么每 18 个月重训一次(且要保证回归可控),要么眼看着模型在该型号 30 年生命周期里被代际碾压。这是航空航天 vs 互联网行业最锋利的区别。
约束 5:工程数据格式的"分布外性"。
CAD 的 B-rep / STEP、CAE 的 NASTRAN bdf、PLM 的 OSLC、MBSE 的 SysML v2、ReqIF、Polarion——这些是通用大模型预训练语料里基本不存在的格式。也是后面争论"应不应该自训"时唯一能站住脚的"独家数据"。而提供这些数据的设计工具的厂家也正努力把这些格式的模态加入到各自工业软件所依赖的大模型里。很难想象一个软件的用户对软件数据格式的理解能超远软件的开发者。
把这 5 条放在一起,意味着任何一个航空航天企业讨论"要不要自训大模型"时,不能照抄互联网 / 金融 / 法律的答案,但也不能用"我们行业特殊"作为绕过 BloombergGPT 教训的免死金牌
接下来辩论开始,有请我们各位专家的AI分身。

四、六位顶级专家轮流登场

为了让这场辩论有客观的力量,我们把 6 位真正在前沿做AI大模型的人的公开观点整理出来——他们从不同角度回答同一个问题。先把每个人是谁、为什么他对这件事有发言权说清楚,再听他怎么说。注意:这 6 位中只有 1 位(Elon Musk)真正在做航空航天硬件,但其他 5 位的判断恰好构成本辩论最强的技术论据来源。

4.1 Elon Musk:第一性原理 ——「你要的是拥有一个模型,还是让 AI 创造价值?」

他是谁:xAI 创始人兼 CEO(2026 年 Grok 5 已发布、xAI 估值进入千亿美金级);同时是 SpaceX CEO(猎鹰 9 号、星舰 Starship、星链 Starlink 的实际指挥者)、Tesla CEO(FSD 自动驾驶的工业 AI 实践者)。这意味着 Musk 是唯一一位同时在做大模型公司、航空航天硬件、以及大规模工业 AI 落地的科技巨头 CEO——他对"航空航天企业要不要自训大模型"这件事,比任何一位纯 AI 研究员都有更完整的工程实践视角。Musk 公开拥抱"第一性原理思维"作为决策方法论,他在过去 20 年用这套方法把 SpaceX 火箭单位载荷成本降了 90%、把 Tesla 推上全球电动车销量榜首。
他对这件事会怎么说
"先问一个根本问题——你要的到底是什么?是'拥有一个属于我们公司的微调模型'这个资产,还是'让 AI 在飞机研制中创造价值'这个结果?这两件事经常被混为一谈,但它们差着十万八千里。"
"航空制造商真正稀缺的不是'通用智能',那是 OpenAI / Anthropic / Google / DeepSeek 已经替全人类造出来的东西。真正稀缺的是'飞机研制领域的专有知识结构和工程约束'。这部分东西,基础模型公司永远不会有,也永远训不出来。所以正确的姿势是——用最强的开源或商用基础模型做底座,把你的稀缺资源(领域数据、专家经验、SysML/MBSE 模型、试验结果)全部投入到RAG、Agent 编排、工具链集成、Skills 封装这几个层面上。这是杠杆最大的地方。"
"post-training(包括 LoRA、SFT、RLHF)在某些窄任务上有意义,但它从来不应该是你的主战略叙事——你不会因为'我们也微调了一个模型'就在工程价值上比对手强,你会因为'我们把基础模型 + Agent + 工具链装进了真实的飞机研制工作流'才比对手强。"
"把上百人、半年时间、整年算力,投到一个'用自己数据微调出'我们的行业大模型'的叙事项目上——除非有强制性的合规或产业政策要求(出口管制、密级数据、本国主权底座要求等)让你必须把模型权重控制在企业 boundary 内,否则纯从工程理性看——这是把美元当干草烧。"
Musk 这一组视角的判决,对应到那家航天制造商,是非常直接的:你已经做了一轮 LoRA + SFT + post-training,效果不置可否。问问自己,你微调出的那个小尺寸模型,"创造的价值"用任何方式量化,是不是真的高于"把这一年算力 + 人力 + 工程师注意力投在 RAG / Agent / 工具链 / 评估体系"上?如果答案是"不确定"——那默认就是"不"。第一性原理不允许你用"沉没成本"压住"边际投入"的判断。

4.2 Karpathy / Ilya:「the data is the model」

他们是谁
Andrej Karpathy—— 前 OpenAI 创始团队成员、前 Tesla AI 总监(领导 Tesla FSD 视觉感知团队 5 年),2024 年创立 Eureka Labs 投身 AI 教育;他在 YouTube 上"从零搭建 LLM"系列讲座是过去三年深度学习教育圈最广被传播的一手资料;他对"SFT 本质上是 behavior cloning(行为克隆)"的论述被业界视为微调认识论的圣经
Ilya Sutskever—— OpenAI 联合创始人、前首席科学家,2024 年离开 OpenAI 创立 SSI(Safe Superintelligence);深度学习核心理论奠基人之一(AlexNet 共同作者、Seq2Seq 架构提出者、AlphaGo 团队顾问);scaling law 与 emergence 理论的主要倡导者
为什么他们的视角对本话题最相关:Karpathy 在 Tesla 真正做过"用海量私有数据微调网络"的工业实践,Ilya 在 OpenAI 真正做过"如何用预训练 + 后训练造出 GPT 系列"——他们不是隔靴搔痒的评论员,是一手做过的人。
他们会怎么说
Karpathy 把它说穿:"SFT 本质上是 behavior cloning。模型学的是'在这种输入下,标注者会怎么回答'。" Ilya 关于 scaling 与 emergence 的观点也指向同一方向:模型的上限由数据决定,不由你叫它什么名字决定。
把这条原理代入航空航天场景,第一个问题是:你要训进去的"独家数据",标注本身有客观正确性吗?
这才是问题的关键。一个航空航天企业过去 30 年的设计文档、需求分解、功能分配、架构权衡——这些 MBSE 核心活动的产物,绝大部分是工程妥协、组织博弈、时间压力下的"够用就行",而不是"理论最优"。换句话说,这些数据里没有"做对了 vs 做错了"的客观 ground truth——飞机过了适航、能飞起来、卖出去了,那个功能分配就被默认成"对的"。
如果你把这种数据当成监督信号去训模型,模型学到的不是 MBSE 方法论的上限,是"这家公司历史上是怎么妥协的"——这是技术上一个非常严重的问题,叫负向迁移(negative transfer)。而且因为评估指标本身也来自同一批数据,这种退化在 benchmark 上还看不出来。
用一句最锋利的话压缩:训得再好,也超不过当初决定型号架构的那群工程师的水平。
而这群工程师的水平 ≠ MBSE 方法论的上限——他们做的决策本来就不是为了"理论最优",是为了"项目能往前推"。
Karpathy 这一组视角的判决:你的数据决定了模型的上限。如果你的数据上限是历史决策的平均水平,再多算力也救不了你。

4.3 Jensen Huang黄仁勋:「build on top, not from scratch」

他是谁:NVIDIA 创始人兼 CEO,2026 年 NVIDIA 是全球 AI 算力底座的实际定义者,市值长期保持在 4 万亿美金级别。Jensen 看遍了过去 5 年所有真正在用 NVIDIA 集群做 AI 的客户——OpenAI、Anthropic、Google、Meta、xAI、DeepSeek、所有美国和中国头部车厂、所有美国和中国头部银行、绝大多数财富 500 强。他对"哪种企业自训路线烧得起、哪种烧不起、哪种烧了也白烧"有最完整的横向数据。他在 GTC 大会和多次行业演讲中反复倡导的"build on top, not from scratch",是对成千上万真实客户决策案例的归纳,不是空话。
他会怎么说
对绝大多数企业而言,正确的姿势是"build on top, not from scratch",而且这个 top 应该是 API 层和 agent 层,不是模型权重层。
把这话翻译到 2026 年的实证上,最有冲击力的数据是 Med-PaLM 2 的折旧曲线。
Google 在 PaLM 2 基座上做医学领域微调 + ensemble refinement 提示策略,做出 Med-PaLM 2,在 MedQA / USMLE 风格题目上达到 86.5%,首次让模型在执业医生考试上超过及格线,临床医生在 8/9 个评估维度上偏好 Med-PaLM 2 的回答。这看起来是垂直微调的胜利。
但接下来发生的事更说明问题。微软研究院发表了一项研究:"Can Generalist Foundation Models Outcompete Special Purpose Tuning?"——答案是:可以。GPT-4 base + 一个叫 Medprompt 的高级提示工程方案(zero-shot/5-shot prompt + GPT-4 自生成 chain-of-thought + 最近邻 5-shot response scoring),不仅几乎追平 Med-PaLM 2,还在 MMLU Professional Medicine 之外的多项测试上显著超越。研究人员发现 GPT-4 自己生成的 CoT prompt 比 Med-PaLM 2 的"专家手工"prompt 表现还要好。
Google 的反应更值得品味——它直接放弃在 PaLM 2 上继续投入,改在新一代 Gemini 基座上重做医学版(Med-Gemini,MedQA 91.1%,比 Med-PaLM 2 高 4.6%)。
前一代领域微调模型被下一代通用基座超越的速度,大约 18-24 个月。
Google 有 Anthropic / OpenAI 都没有的医学数据访问权限、有顶级研究团队、有任意算力,做出来的 Med-PaLM 2 优势窗口期也就一年多。把这个折旧曲线放到航空航天场景:
每做一次基座级别的 continued pretraining,都在签下一份"6-9 个月就贬值到零"的工程承诺。
要么你接受这种贬值并不断重训(这就回到了"跟训练曲线赛跑"的不可持续状态),要么你冻结在某个特化版上并眼看着它被开源底座追上(这种情况下你的微调投入彻底浪费)。
Jensen 这一组视角的判决:从经济周期看,自训权重的 ROI 在 2026-2028 是结构性为负的。模型权重层的折旧速度太快,任何沉淀都会被下一代基座抹平。

4.4 John Schulman:「Alignment Tax —— 你失去的能力你看不到」

他是谁:RLHF(基于人类反馈的强化学习)的主要奠基人之一——他在 OpenAI 主导了 ChatGPT 的后训练管线,发明了 PPO(Proximal Policy Optimization)和 TRPO 算法(这两个算法是过去 8 年所有 RL 工作的事实标准)。2024 年从 OpenAI 转到 Anthropic 加入 Claude 团队。今天全球能在台面上谈"如何在不损害基础能力前提下做后训练"这个问题的人,全球可能不超过 50 个,Schulman 是其中之一。他在 OpenAI 内部直接对 GPT-3.5 / GPT-4 / o-series 的后训练管线负过责,知道每一种"加 SFT / 加 RLHF / 加 DPO"动作对模型的真实代价。
他会怎么说
这一圈做后训练的人,会从工程现实给出一个被反复观察到的现象——alignment tax(对齐税)
任何形式的后训练(SFT / RLHF / DPO)都会以某种方式损害基础模型在训练分布之外的能力。
具体表现:模型在被微调的目标任务上变好,但在通用推理、创造性问题求解、长链推理、罕见情境处理上,会出现不同程度的能力衰减。
最致命的一点:这个衰减经常是不可观测的。你的 eval 集覆盖不到,但用户在真实场景里会撞上。
Anthropic 和 OpenAI 内部都为此付出过巨大代价——这也是为什么这两家公司投入了远超外界想象的资源在"如何在后训练中保住基础能力"上。这是一个前沿研究问题,不是一个工程标准操作
放到航空航天场景,这意味着两个连环坏消息:
坏消息 1:飞机研制是一个跨学科、长链推理的任务——它需要从材料、热力学、控制理论、人因工程、维修性、适航判例等大量看似不相关的领域中提取信息并综合。基础模型之所以好用,恰恰是因为它的"知识图谱"非常宽。后训练做得好,这个宽度被局部加深;后训练做得差,这个宽度被切碎。
坏消息 2(更狠):要做得好,需要 OpenAI/Anthropic 级别的 alignment science 团队和内部 eval 体系。一家航空航天企业要复刻这套基础设施,代价远超训练本身。而且——评估这种负向迁移的能力,本身就是一项前沿研究能力。 一家航空航天企业不具备这种能力,意味着即使微调出问题也发现不了。
Schulman 这一组视角的判决:不仅自训可能引入负向迁移,更严重的是你没有能力发现它发生了。这比 BloombergGPT 那种"看得见的失败"还要坏——它是看不见的失败。

4.5 Chris Olah:「可解释性债务 —— 在适航语境下分量最重」

他是谁:Anthropic 可解释性研究负责人,mechanistic interpretability(机制可解释性)这一研究方向的奠基人之一。在 OpenAI 和 Google Brain 期间领导过 distill.pub(业界最高水准的神经网络可视化与解释期刊),过去 6 年关于"如何打开神经网络黑盒"的工作奠定了整个"可解释 AI"研究范式。Anthropic 之所以在所有大模型公司中对'微调到底对模型做了什么'这件事最有发言权,根源就在 Olah 团队的可解释性研究。他的视角对航空航天这种"必须证明系统行为可被审计"的安全关键行业,是分量最重的。
他会怎么说
可解释性团队和更广泛的 mechanistic interpretability 圈,过去几年的核心结论之一是:我们目前没有任何可靠方法验证一次微调到底改变了模型的哪些内部回路。SFT 和 RLHF 会修改模型权重,但修改的位置、修改的语义内容、修改对其他能力的副作用,在 2026 年仍然是不可解释的——这是当前 AI 研究最前沿的开放问题之一。
把这个事实放进航空航天的认证语境,对比就出来了:
路径
模型
应用层
适航认证策略
基础模型 API + Agent + RAG
黑盒
白盒(可审计 prompt / 检索结果 / 工具调用 / 人类决策点)
认证聚焦在"应用层如何约束和验证模型输出"——可行
企业自训过的特化基座
黑盒 + 还被自己改过
白盒
不仅要论证应用层,还要论证"我对基座做的修改没有引入新的、未知的失效模式"——而 2026 年没有可靠方法做这件事
结论非常反直觉:
企业自训出的特化模型,在最严肃的适航语境下,反而比原始基座更难进入正式研制流程
为什么?原始基座至少有 OpenAI/Anthropic 的 model card、safety eval、red teaming 报告作为外部背书。你的特化版什么都没有。这就是 Olah 视角下的"可解释性债务"。
这一债务还有复利效应。假设 2027 年你用自训基座生成了 3000 份维修工单建议、500 份设计评审意见、200 份适航文件草稿。2030 年发现该基座有一个隐性失效模式(FAA 调查发现,或下一代评测基准升级后暴露)。你需要追溯并重新审查所有下游决策——这是 737 MAX 教训"系统集成 + 透明度 + 培训"三重红线在 AI 时代的 fan-out。
Olah 这一组视角的判决:适航语境下,可解释性债务的成本可能远超自训带来的能力增益。 自训不是把"能力账"算正了就行,还得算"债务账"——而后者目前没有人能算清楚。

4.6 综合判决:五条独立线索收敛同一判断

把上面 6 位专家(其中 Karpathy / Ilya 合算一组"预训练范式"代表)的视角放在一起:
专家
身份关键词
论证维度
核心判断
Elon Musk
xAI + SpaceX + Tesla CEO
第一性原理 / 工程现实主义
你要的是"拥有模型"还是"AI 创造价值"?沉没成本不能压住边际投入判断
Karpathy / Ilya
OpenAI / Tesla / SSI 灵魂人物
预训练理论 / 数据本质
数据决定模型上限;历史标注 = 工程妥协 = 负向迁移
Jensen Huang
NVIDIA CEO / 看遍所有客户
经济学 / 折旧周期
6-9 个月一代;自训资产 18-24 个月被通用基座反超
John Schulman
RLHF 奠基人 / OpenAI→Anthropic
后训练工程
Alignment tax 不可观测;评估能力本身是前沿能力
Chris Olah
Anthropic 可解释性负责人
可解释性 / 适航
自训基座在认证语境下反而更难——可解释性债务复利
五条独立线索从五个完全不同方向(工程战略 / 数据本质 / 经济周期 / 后训练副作用 / 可解释性)收敛到同一个判断:在 2026 年 这个时间点,在以适航 / 安全关键为最终边界条件的航空航天研制场景里,对一个基础大模型做用自己数据的 continued pretraining + SFT + RLHF,收益不确定、代价大、可解释性债务高、经济周期上结构性贬值,且和"开源模型 + RAG + Agent + 工具调用 + 人类决策节点"路径相比是次优解
但这只是"反对微调"一方的论证。辩论的另一边——成功案例研究员、监管律师、CEO——还没出场。下面让他们说话。

4.7本文讨论的"微调"到底是什么颗粒度

进入下半场前必须把命题边界再画清楚一次。本文从这里开始所有"自训 / 训自己的大模型 / 行业大模型 / 微调"的讨论,指的都是下面这个颗粒度区间
在某个开源基础模型(LLaMA / Qwen / DeepSeek / Mistral 等)的某一个尺寸版本(小尺寸为主,部分场景用到中等尺寸)上,用企业自己的数据做 LoRA / SFT / post-training,可能加一定规模的受控 continued pretraining,可能加一些 DPO / RLHF 任务对齐。
不在本文讨论范围之内的有两类:
From-scratch 从零造一个基础大模型:这件事在航空航天行业已经几乎没有争议(别做)—— 全球能做这件事的不超过 10 家公司(OpenAI / Anthropic / Google / Meta / xAI / DeepSeek / Mistral 等基础模型公司),任何一家航空制造商都不在那张名单上,也都没在讨论这件事
全量参数全精度的 continued pretraining:算力账单几千万美金起步、需要专门的对齐研究团队保住基础能力——也不在任何一家航空制造商的实际可选项里
行业里所有被打包宣传成"XX 行业大模型 / XX 企业大模型"的项目,真实工程量级 99% 落在上面那个橙色区间—— 小尺寸开源底座 + LoRA / SFT / post-training,少数加受控规模的 continued pretraining。这才是真正在被董事会讨论、被立项书写、被算力预算消化、且在 2025-2026 这个节点上真正有争议的颗粒度。
重要的一点:上面 6 位顶级专家的论证(第一性原理 / 数据决定上限 / 折旧周期 / Alignment Tax / 可解释性债务),对小尺寸模型 + LoRA / SFT / post-training 同样成立——只是数量级不同。LoRA 比全量微调温和,alignment tax 小一些,可解释性债务也轻一些;但这些问题的方向是一样的。换句话说,"我们做的只是 LoRA / SFT,不是从头训"不能成为绕开这 6 个论证的免责声明——它只能让你少踩一些坑,不能让你免踩。
所以辩论的下半场核心问题是4 个追问——它们是任何一家航空航天 / 制造企业在 Q1 决策"今年到底还要不要继续微调"时必须直面的:
追问 1:微调的目的到底是什么?
追问 2:值不值?
追问 3:开源模型 + 行业知识库 + 工具调用 + Agent + Skills 的组合,能不能就够满足要求?
追问 4:费心训了半天,就算某项能力满足要求了,其他能力会不会变弱智?
把上半场 6 位顶级专家的论证 + 下半场即将出场的辩论另一边的论证,全部用这 4 个追问的尺子过一遍,每一问的答案都不令人舒服
追问 1:微调的目的到底是什么?

业界对"什么时候微调有正向价值"有一个相对成熟的拆解——5 类目的,每一类在航空航天微调场景下都需要打个问号:

微调目的
是什么
在航空航天场景下的真实问号
知识注入
(knowledge injection)
让模型掌握公开数据没有的私有知识
用 RAG / long-context 注入比微调高效得多——更新只需改向量库不需重训,可追溯,适航好解释
行为对齐
(behavior alignment)
让模型按特定格式 / 风格 / 流程产出
system prompt + few-shot examples + Skills 就能解决,微调是杀鸡用牛刀
能力诱导
(capability elicitation)
让模型获得基座本身不具备的新能力
Claude 4.7 / GPT-5 + 工具调用,绝大部分这类任务可通过"模型生成 + 工具验证 + 迭代修正"的 agent loop 解决
推理成本压缩
(distillation)
把大模型蒸馏到小模型上跑高频低成本场景
工程意义最实在的微调动机——但前提是已经验证大模型能解决 + 有大规模高频部署需求;属于部署优化阶段
领域推理风格
(domain reasoning style)
让模型像资深工程师那样思考
历史数据无法可靠表达"什么是好的工程推理",训进去的是历史路径依赖;用户原话"训得再好,也超不过当初决定型号架构的那群工程师"
5 类放在一起看,在"还没确认基础模型 + Agent + Skills 能力边界"的阶段,几乎找不到一个非微调不可的目的。文章开头那家航空制造商在 2025 H2 投入的微调项目,如果回到立项时把目的逐项拆开问"为什么不用 RAG / 不用 Agent / 不用 Skills"——大概率没有一条扛得住盘问。
追问 2:值不值?
用 5 年 TCO 的视角对比两条路径:
路径
5 年总投入估算
主要支出
风险 / 折旧
路径 A:开源底座 + continued pretraining + SFT + RLHF + 持续重训
$80M-$300M
算力 CapEx + 数据团队 + MLOps 团队 + 合规与认证 + 每 12-18 月重训
18-24 个月被通用基座反超(Med-PaLM 2 → Med-Gemini 实证);alignment tax 不可观测;可解释性债务复利
路径 B:通用 API + RAG + Agent + 领域工具集成 + Skills + 工程师培训
$30M-$120M
API 费用 + 知识库工程 + Agent 编排 + 工具调用接口 + 培训 + 评估体系
几乎不被代际反超(你建的是工程系统不是模型权重);可追溯可审计
路径 A 比路径 B 贵 2-3 倍,且产出更易折旧、更难审计。不是"值不值"——是"为什么要选贵的还差的那条"。
追问 3:开源模型 + 知识 + 工具 + agent + skill 能不能就够满足?
这是 4 个追问中最关键的一个——也是绝大多数"微调项目"立项时被刻意回避的一个。
正确的回答顺序不是先问"我们能不能做出一个微调模型",而是先问"通用基础模型 + 完整的工具链 + 完整的 Agent 编排 + 完整的领域 Skills + 完整的 RAG 知识库 + 完整的人类决策节点 这一整套组合,对我们这个具体业务场景,到底能做到多好?"
而这个问题在 99% 的项目里没有被认真回答过。原因很简单——回答它需要先把"完整的工具链 + Agent 编排 + 领域 Skills + RAG 知识库 + 评估体系"建起来,工作量远大于"立个项跑微调"。所以项目通常直接跳过这一步,去做"看起来更主动、更有里子"的微调。
但这一跳过本身就否决了微调的合理性——你都没有验证过通用模型组合达不到要求,你怎么证明微调是必要的?
工业代码补全领域 ACM FSE 2025 的硬核研究给出过精确数字:当训练数据规模超过 90K 文件后,fine-tuning 的边际收益急剧下降到 0.35%;而 RAG 在同一个 scale 上仍然有 2.26% 的持续收益。这意味着在大规模领域数据上,RAG 的可扩展性结构性优于 fine-tuning。航空航天企业的设计文档、试验数据、维修工单的规模,远超 90K 文件这个临界点——把它们建成高质量 RAG 知识库 + 工具调用接口的 ROI,远高于把它们训进权重。
回到那家航天制造商:如果你把过去一年那笔训练投入,全部投在 RAG 知识库 + 工具调用接口 + Agent 编排 + 评估体系 + 工程师培训 上——你今天看到的 AI 价值会比微调出来的"效果不置可否的模型"高一个数量级。
追问 4:费心训了半天,其他能力会不会变弱智?
会。而且通常你看不到
这就是 John Schulman 反复警告的alignment tax——任何形式的后训练(continued pretraining / SFT / RLHF / DPO)都会以某种方式损害基础模型在训练分布之外的能力。具体表现:
在你训的目标任务上,模型确实变好了(这是你 PPT 上能展示的部分)
但在通用推理、创造性问题求解、长链推理、罕见情境处理上,模型出现了能力衰减
这个衰减你的 benchmark 看不出来,因为你的 eval 集恰好不覆盖那些衰减的维度
用户在真实使用中会撞上——但他们撞上时通常不会归因于"模型被微调过",会归因于"模型不行"
放到航空研制这种跨学科、长链推理的场景下尤其致命——你需要从材料、热力学、控制理论、人因工程、维修性、适航判例等多个看似不相关的领域抽取信息并综合。基础模型好用恰恰因为它的"知识图谱"非常宽。后训练做得好,宽度被局部加深;做得差,宽度被切碎。
而且——评估这种"被切碎"本身就是一项前沿研究能力。Anthropic 和 OpenAI 投入了远超外界想象的资源在"如何在后训练中保住基础能力"上,你不具备这个能力,意味着即使微调出问题也发现不了
回到那家航空制造商:2025 微调出的模型——在没有训过的那些场景上,它现在比通用基座弱多少?你测过吗?测得出来吗?测不出来,是因为没问题,还是因为你没有能力测出问题?
四个追问问完,下半场辩论的基调就定下来了——支持微调一方需要解决的不是"我们能不能做出来",是"我们做这件事的目的、性价比、不可替代性、副作用风险,是不是都站得住脚"。下面看支持方怎么回答。

顺便堵一个常见退路:「小尺寸 / 低精度」不改变结论
在董事会上经常听到的一种缓兵之计是 ——「我们不做大模型微调,我们只做'小尺寸 + 低精度'的轻量微调,门槛低、投入少、风险可控」。这话听起来温和,但在技术上几乎没有降低任何核心难度。逐条拆开:
"小尺寸"(7B-13B 量级)的能力天花板被基座决定。拿 7B 开源底座做领域微调,训出来的能力上限是 7B 基座的能力上限。而 2026 年 4 月,7B 级别开源基座(Qwen3-7B / Llama-4-8B 这一类)在通用推理、复杂工程问题求解上,和 Claude Opus 4.7 / GPT-5 之间还有显著差距。微调之后得到的是"在航空格式上对齐得很好但通用推理仍然差一截的小模型"——工程师真正需要它的时候(分析复杂耦合气动弹性、综合多份适航判例做权衡),还是不如直接调最强 API。
"低精度"(W4A8 / INT4 量化)是部署优化技术,不是训练替代。量化是把训好的权重从 FP16 / BF16 压到 INT4 / INT8 以减少推理显存和提升吞吐——它是后处理,不会让你"训出"一个新模型。把"训自有模型"和"低精度推理"混在一起讨论,在术语上就是错的
如果你的真实意思是"用低精度训练(QLoRA 一类)来降低训练门槛"——那这是 PEFT(parameter-efficient fine-tuning)的范畴,工程门槛确实低(单机几张卡就能跑),但 PEFT 训出来的本质是给基座加一个小 adapter,它的能力增益就是上面说的那些有限的格式对齐、风格对齐,不会让基座产生根本性能力提升。把 PEFT 产物包装成"行业大模型",会严重高估它的实际价值。
结论:「小尺寸 / 低精度 / PEFT是工程上更便宜的方案,不是论证上更安全的方案。前面 6 位顶级专家的AI分身关于 alignment tax、可解释性债务、折旧、负向迁移、评估能力缺失的论证——对小尺寸 + LoRA / PEFT 全部成立,只是数量级不同。"我们做的只是 LoRA"不能让你绕过这些论证。

五、辩论的另一边:什么时候自训"真的"有意义?

感兴趣的话,我们下一篇公众号文章里继续讨论。欢迎在评论区留下您的看法。

参考资料
本文所有数字、案例、引用均可追溯。主要来源:
失败案例:BloombergGPT 论文(arxiv 2303.17564)、Wharton Ethan Mollick 公开评论;IBM Watson MDACC(多份公开复盘);Babylon Health(路透社、英国 NHS 报告)。
成功案例:NASA-IBM Prithvi-EO-2.0(research.ibm.com / earthdata.nasa.gov / arxiv 2412.02732);Med-PaLM 2 → Med-Gemini(cloud.google.com Health 系列发布);Microsoft Medprompt 研究;Scale AI Donovan(scale.com/donovan/defense-llm);Anduril + Palantir Maven Smart System(defensescoop.com / 福克斯防务)。
行业部署:Boeing Conversational AI / GenAI Academy(boeing.com / klover.ai);Boeing Space Mission Systems AI Lab(spacenews.com);Airbus + Palantir Skywise / Wayfinder(airbus.com / acubed.airbus.com);Lockheed Martin Astris AI(news.lockheedmartin.com / astrisai.com / aerospaceamerica.aiaa.org);Northrop Grumman AI Architect Dadson 公开发言(aviationweek.com)。
监管文件:FAA Roadmap for AI Safety Assurance V1(faa.gov 2024-07);EASA NPA 2023-11 + 2026 第二个 NPA(easa.europa.eu);MITRE-FAA ALUE benchmark(executivegov.com);ITAR/EAR for AI(justsecurity.org / mondaq.com / orbitalxploration.com)。
技术研究:ACM FSE 2025 工业代码补全 RAG vs Fine-tuning 对比;DeepSeek-V4 技术发布(deepseek.com 2026-04-24)。
5 位 AI 专家观点综合自 Andrej Karpathy / Ilya Sutskever / John Schulman / Jensen Huang / Chris Olah 的公开演讲、论文与采访。

相关内容 查看全部