专家能被蒸馏吗?波兰尼的默会知识与 AI 时代的 70% 天花板
波兰尼的“默会知识”早已揭示:真正的直觉、体感与判断力,或许只能在实践中自然生长而成,AI 时代的知识“蒸馏”注定遇上一道 70% 的天花板。
一、能否将专家经验“蒸馏”进 AI?
近段时间,一个概念颇为流行:将员工的知识“蒸馏”到 AI 模型里。
具体做法往往是让资深员工撰写标准作业流程与排障手册,把多年积累的经验沉淀为文字,然后作为上下文直接喂给智能体(Agent),试图以此复制这个人的全部能力。
听上去确实诱人:单个人类只能 7×24 值守一套系统,而 AI 能够同时监控一万套。把专家蒸馏成 Agent,相当于瞬间将一个人的能力复制了一万份。
如今许多企业已经在这样操作。DBA Agent、运维 Agent、客服 Agent、法务 Agent 等纷至沓来。笔者也在打造 DBA Agent。
但这里必须坦率地说出一个不太好听的事实:这条路径存在一道非常坚硬的天花板,而绝大多数人还未真正撞上它。
二、那道 70% 的天花板
笔者自身的经历便是一个例证。
从事 PostgreSQL 十年,在 PG DBA 这个细分领域已贴近天花板。确实能把很多经验写成文档:高可用如何搭建、备份恢复方案如何设计、参数怎样调优、索引如何优化……这些知识都是可以显性化的,写出来就是 SOP,喂给 AI 就能工作。开源 PG 发行版 Pigsty 本身就是这种蒸馏的产物——把专家经验固化为代码与配置。
但诚实地说:能够完整表达出来的,大约只占全部能力的 70%。
余下那 30% 是什么?
是盯着 Grafana 仪表盘那一瞬间,心里觉得“不对劲”的体感。是两种方案听起来都合理时,凭直觉选对了那一个,你却只能回答“靠感觉”。是生产环境突然冒出一个从未见过、文档里完全没覆盖的故障,而你却能从过去零散的经验碎片中瞬间“涌现”出一条全新的解决路径。
这些东西,写不出来。不是不愿意写,而是它们根本不以一种可被书面表达的形式存在。写 SOP 时常碰到类似情境:到了某一步,实际操作中会根据“当下的感觉”做出一个判断,但这个判断完全无法被编码成一条明确规则。最后只能憋出“请根据实际情况酌情处理”——这九个字,就是那 30% 的遮羞布。
初级工程师看到“酌情处理”只会茫然。因为“酌情”所需要的那种判断力,根本就不在文档里。
三、波兰尼早在六十年前就讲透了
这一现象并非笔者第一个发现,六十多年前就有人将其分析得透彻。
1958 年,匈牙利裔英国学者迈克尔·波兰尼(Michael Polanyi)在巨著《个人知识》中写下了一句名言:
“我们所知道的,远比我们能够言说的多。”

波兰尼并非书斋里的哲学家。他首先是一名硬核科学家——物理化学家,在柏林威廉皇帝研究所从事研究十三年,发表了超过两百篇论文,是势能面理论的奠基人之一。1948 年,他将物理化学教席换为社会研究教席,全力转向哲学。之所以做出这一转变,是因为他在科学实践中深切体验到:最重要的知识,恰恰是形式化方法所无法捕捉的那部分。

他用余生搭建了一套理论,核心可归结为三个层次:
第一层:背景与焦点。 所有认知都具备双层结构。当你钉钉子时,注意力聚焦在钉子上,而手掌的触感只留下模糊的背景觉察。开车时注意力放在路况上,方向盘和踏板的操控同样处于背景觉察中。关键在于,这个结构不可逆转:钉钉子时一旦把注意力转移到手掌的肌肉发力,立刻就会钉不准。经验丰富的司机若突然刻意关注自己如何踩刹车,反而容易出现误操作。有些知识只能待在“背景”中才能真正生效,一旦试图拎到“焦点”下审视,便立即失效。
第二层:寓居(Indwelling)。 盲人用拐杖探路,意识不在手柄,而在路面,拐杖已变成身体的一种延伸——他“住进”了拐杖中。同样,经验丰富的司机“住进”了他的车,资深厨师“住进”了他的厨房,程序员“住进”了他的编辑器。把一个用了十年 Vim 的人突然换成别的编辑器,不只是换工具,而是切掉了他一部分思考的能力。专家与自身工具、环境之间并非“使用”关系,而是“融合”关系。
第三层:不可完全形式化。 这并非“暂时说不出来”。波兰尼的主张更为激进:默会知识是所有知识的根基。你把一个技巧写成手册,读手册的人又需要新的默会知识去理解它。外化了一层,下面还有一层,如同剥洋葱,永远剥不到没有皮的核心。
波兰尼之后,日本管理学家野中郁次郎将其理论简化为“SECI 模型”,假设隐性知识能够被“外化”为显性知识。这一简化版极其流行,也是中文世界传播“隐性知识”的主要渠道。但它恰恰曲解了波兰尼最为锐利的洞察。今天所谓的“蒸馏员工”,根本上是 SECI 模型在 AI 时代的翻版,仍抱着同一个假设:只要方法得当,隐性知识就可以被彻底显性化。
波兰尼早已断言:不能。你以为自己蒸馏了知识,实则只蒸馏了知识炼成的副产品。
四、菜谱永远不等于手感
不妨用深度学习来做一个类比。
专家的大脑相当于一个训练了十年的神经网络。让他撰写 SOP,就类似于让这个网络导出一系列推理日志。日志确实能在一定程度上反映网络的能力,但绝不等同于网络本身。
接下来,你将这些日志喂给 Agent 作为提示词。
专家的输出,变成了 Agent 的输入——两者之间差了一整个层次。
就像当下许多模型在“蒸馏” Claude,用 Claude 的输出作为训练数据,但至今没有一个能真正达到 Claude 的水准。
你获得的只是名厨写下的菜谱,而不是名厨本人。菜谱上写着“中火翻炒两分钟”,但大厨站在灶台前根本不会盯着时钟——他凭油发出的声音就知道温度到位了,凭颠勺的感觉就知道菜该起锅。这些在菜谱上根本写不出来,因为“中火”到底多大火、“两分钟”又究竟是多久,每一道菜、每一口锅、每一种食材都不相同。
菜谱能让新手下厨做出勉强及格的菜。但只看菜谱而不亲自掌勺,永远成不了真正的大厨——因为大厨的能力不在菜谱里,而在“手感”里。
手感是什么?是权重,是那种被十年颠勺翻炒反复塑造的神经回路。它决定的是大厨“怎么思考”,而不只是“思考什么”。你给 AI 再多的菜谱(SOP),改变的只是它“想什么”(输入),而非它“怎么想”(参数)。
这恰恰是 70% 天花板的本质:SOP 编码的是推理日志,而专家的直觉却活在权重中。你永远蒸馏不出权重。
五、湿件体感
那么,专家那 30% 到底是什么?它又是如何生长出来的?
在计算机文化中,相对于硬件(Hardware)与软件(Software),人的大脑和身体被称作湿件(Wetware)——一种碳基、含水、活生生的计算基质。专家那 30% 的判断力,不妨称之为湿件体感。
硬件和软件可以复制、序列化。但湿件有一个致命的不同:计算与存储不可分离。 冯·诺依曼架构中,CPU 与内存是分开的。而在人的大脑里,神经元既是计算单元,也是存储单元,知识结构决定感知方式,感知方式又重塑知识结构。每一次使用,都在改造基质本身。
“体感”并非比喻。认知科学家 Damasio 提出的“躯体标记假说”指出:大脑在决策时,会重新激活过去相似情境中的身体状态——心率、肌肉张力、内脏感受——并用这些信号迅速度缩小决策空间。许多高阶专业判断确实以身体感觉的形式运作:胸口发紧、直觉感到不对劲、说不清哪里不对但就是不舒服。

经验丰富的飞行员在气流颠簸中马上就知道“没事”还是“必须拉升”。老练的司机过弯时,脚感就告诉他该给多少油。优秀的厨师颠勺一瞬手中便知咸淡。资深中医三根手指搭脉,就能分辨出“滑”还是“涩”。这些并非逻辑推理,而是身体在重放过去无数次类似情境的感觉模式。
这种体感要生长出来,必须满足四个条件,缺一不可:
时间。 不是阅读一万小时的资料,而是必须在真实场景中暴露一万小时。
后果。 犯错误会带来真正的代价,没有真实后果就没有情绪标记,模式便刻不进身体。
归因。 做出决策后,能迅速看到后果并准确归因到自己头上。
变异。 同类问题以不同变体反复出现,迫使身体发展出弹性,而非死记硬背答案。
合在一起,这绝不是单纯的信息输入、存储与检索,而是神经回路在真实后果的压力下被反复雕刻。
过去,这个过程有一个名字:学徒制。师父带徒弟,不是把 SOP 递给他就了事,而是让他在真实环境中跟着干,亲手去摸、亲眼看、用自己的身体去试错。读再多书不动手,永远形不成手感。手感只能生长在真实环境之中。
这正是波兰尼六十多年前就讲透的事情。
六、AI Agent 的天花板
现在,把这一框架对准当前的 AI Agent。
市面上几乎所有的 Agent 框架,不论怎样包装,本质上都在同一层面发力,即Harness 层:系统提示词、工具定义、RAG 知识库、SOP 决策树、Few-shot 示例。全部是显性的、可序列化的。用波兰尼的话说,这些全部是焦点知识,全部是推理日志。
Harness 层确实能做得很出色。一个顶尖专家把自己 70% 的能力编码进去,Agent 就能够在绝大多数日常场景中表现得像个可靠的中级从业者。这已经具备巨大的商业价值,毕竟大量日常工作本就是例行而可规则化的。
但天花板就悬在那里。
那种“SOP 说清不了、现场才知道”的专家直觉,不在 Harness 层。它活在权重之中。而当前 Agent 架构并不涉及权重的改变,LLM 在推理时是“只读”的,无论你塞进多少上下文,参数一个也不会变。
这意味着一件事:目前的 Agent 能够在上下文中“记住”上一次的错误,却不会因此“变成”一个不再犯这种错误的 Agent。 记住教训只是数据层面的操作,长出直觉才需要权重层面的改变。
它能模拟一个照章办事的中级工程师,却模拟不出专家的直觉。
七、给 Agent 一副身体
那怎么办?笔者的判断分成两步。
第一步:为 Agent 提供一个能够“居住”的环境。
波兰尼强调,知识必须“寓居”于环境之中。翻译成工程语言就是:Agent 不能只有大脑(LLM),还需要一个持久、有状态且会产生真实后果的运行环境。这个东西叫做Runtime,可以理解为 Agent 的身体。
笔者所做的 DBA Agent,其 Runtime 就是 Pigsty,Pigsty 就是它“寓居”的环境。监控系统是它的“眼睛”,CLI 工具是它的“手脚”。它在这个环境中持续运行,每次操作都有真实后果,并且后果会被记录下来影响后续决策。这就是学徒期——在真实环境中积累实践体感。
一个跑了一年的 Agent 和一个刚部署的同模型 Agent,能力天差地别。不是模型本身变了,而是前者在 Runtime 中积累了丰富的经验:操作历史、失败记录、对这个系统脾气的感知。
第二步:让体感真正沉淀回权重。
仅有 Runtime 还不够。可以将实践中的经验记录下来再塞回提示词,把 Harness 层的天花板继续向上推,也许能做到 80% 甚至 90% 的分位点。但真正的专家直觉——那种不用查记录就知道该怎么做的能力——笔者的直觉是,最终只能通过调整模型权重来实现。Agent 所积累的经验不能只存放在上下文里,还得回灌到模型参数中,真正改变它“如何思考”。
这正是当前 AI 架构的根本缺失。LLM 在推理时权重完全固定,今天的操作并不会让明天的模型变得更好。而生物大脑无时无刻不在重塑突触连接,尤其是睡眠期间。未来的方向可能是某种持续学习机制:白天执行任务积累经验,晚间定期增量微调以更新权重,就像人类白天干活、夜里整理记忆。
即使如此,冯·诺依曼架构下计算与存储分离,仍是根本瓶颈。真正的“每使用一次就改造自己”,可能需要全新的硬件范式才能实现。这或许也会成为本地推理真正的杀手级动机——在真实环境中培养出独属于每个 Agent 的湿件体感,实现千人千面。
这是后话,但方向已足够清晰。
八、智能可以下载,体感只能生长
回到开头那个问题:专家能被蒸馏吗?
能。但只能蒸馏出 70%。
那 70% 是 SOP、文档、可规则化的那块,喂给 AI 可以立竿见影。一个中高级水平的 Agent 已经能解决海量重复性工作,为此付出的努力完全值得。
但剩下的 30%,那种专家直觉、实践体感、那种说不清楚但确实知道的那个判断力,无法被蒸馏出来。 波兰尼早在六十年前就解释了其中的原因:它根本不是信息,而是结构;不是推理日志,而是权重;不是你“拥有”的一样东西,而是你“成为”的一部分。
对人来说:你最不可替代的,不是你知道什么,而是你经历过真实后果反复锤打后“成为”的那个判断者。真正的护城河不在头脑里,而在身体之中。AI 能复制你写下的一切,却复制不了你这个人。
对 Agent 来说:只有大脑和知识还远远不够,还需要身体(Runtime)和真正的成长(权重更新)。Harness 层走到 70%,Runtime 积累的经验或许能推高到 85%,但要逼近专家水平,就必须触及权重层——而这恰恰是当前架构最紧缺的一环。
波兰尼用一生的论证说清了一件事:知识并不是某种“东西”,而是一种“关系”——认知者与世界之间鲜活、动态的耦合。把它从关系中抽离,变成可传输的对象,它就不再是原来的东西了。
智能可以下载,体感只能生长。
六十年前,那位主动离开实验室的科学家所揭示的道理,至今仍是 AI 时代定海神针般的存在。