专家能被蒸馏吗？从波兰尼默会知识看AI的70%天花板

May 9, 2026

波兰尼的“默会知识”在AI时代被重新唤醒：真正的直觉、体感与判断力或许只能在实践中生长，而能写下来的那部分，至多占到能力的七成。

知识的“蒸馏”：一个诱人的幻象

近来常听到一种说法：把员工的知识“蒸馏”进AI。

做法听起来非常直接：让资深员工撰写标准作业流程（SOP），整理排障手册，把多年累积的经验沉淀成文本，然后作为上下文送给智能体，让模型复现这个人的能力。计算也很清楚——一个人只能7×24盯着一套系统，AI却可以同时盯住一万套。把专家蒸馏成Agent，似乎就等于把一个人复制一万份。

许多公司已经开始这么干了。DBA Agent、运维Agent、客服Agent、法务Agent遍地开花。老冯自己也在做DBA Agent。但我还是想说一句不太好听的真话：这条路有一个非常硬的天花板，而大部分人还没有撞到它。

难以逾越的70%

我自己就是一个活生生的例子。

做了十年PostgreSQL，在PG DBA这个领域几乎触碰到了顶点。我确实能把很多东西写成文档：参数怎么调、索引怎么建、高可用怎么搭、备份恢复怎么做——这些知识是可以显性化的，写出来就是SOP，喂给AI就能用。开源PG发行版Pigsty某种意义上就是我自己蒸馏出来的产物，是把专家经验固化成代码和配置。

但我必须非常坦诚地说：能写出来的，大约只占我能力的70%。

另外30%是什么？是我看一眼Grafana仪表盘就觉得“不对劲”的那种感觉。是两个方案都说得通的时候，我选了那个“对”的，但要我解释为什么，只能说“直觉”。是生产环境突然冒出一个从没见过的故障，所有的文档都没有覆盖，但我能从过去经验的碎片中涌现出一条新的解决路径。

这些东西，我写不出来。不是不肯写，而是它们根本不以“可写”的形式存在。写SOP时我常常卡在某一刻：明明在实际操作中会根据“当下的感觉”做一个判断，但这个判断却无法被编码成一条死规则。最后只能在文档里写上一句“请根据实际情况酌情处理”——这八个字，就是那30%的马甲。

你让一个初级工程师看到“请根据实际情况酌情处理”，他只会一脸茫然。因为“酌情”的能力，从来都不在文档里。

波兰尼半个世纪前的洞察

这个现象并非我的独到发现。早在六十多年前，就有人把它彻底说透了。

1958年，匈牙利裔英国学者迈克尔·波兰尼在他的巨著《个人知识》中写下了一句震动人心的命题：

“We can know more than we can tell.”

我们所知道的，远比我们能说出来的多。

波兰尼不是书斋里的空想家。他首先是一位硬核科学家——物理化学家，在柏林威廉皇帝研究所泡了十三年，发表了两百多篇论文，是势能面理论的奠基人。1948年，他把物理化学的教席换成了社会研究的教席，全身心投入哲学。因为他从自己漫长的科研实践中深刻地感到：最重要的那部分知识，恰恰无法被形式化方法捕捉。

他用毕生心血搭建了一套认知理论，核心可以拆解为三层。

第一层：背景与焦点。所有的认知都具备双重结构。你钉钉子时，注意力在钉子上（焦点），而手掌的触感却只存在于模糊的背景觉察之中。你开车时注意力在路况上，方向盘的握感和踏板的控制则退为背景。关键在于，这个结构不可逆：钉钉子时一旦将注意力转向手掌肌肉的发力，你就立刻钉不准了。老司机开车时一旦刻意去琢磨脚下怎么踩刹车，反而容易踩错。有些知识只能待在“背景”里才能发挥作用。你一旦试图把它拎到“焦点”下仔细审视，它就会失效。

第二层：寓居。盲人用拐杖探路，意识并不在手柄上，而在路面上——拐杖已经成了他身体的延伸，他“住进”了拐杖里。同样，老司机“住进”了他的车，老厨师“住进”了他的厨房，资深程序员“住进”了他的编辑器。你把一个用了十年Vim的人换成别的编辑器，不只是换个工具那么简单，而是直接截断了他一部分思考能力。专家和他的工具、环境之间，不是简单的“使用”关系，而是“融合”关系。

第三层：不可完全形式化。这不只是“暂时说不出来”。波兰尼的主张更强硬：默会知识是全部知识的根基。你把一个技巧写成手册，读手册的人需要调用新的默会知识才能理解它。你把一层知识外化，底下立即又会冒出新的一层。就像剥洋葱，永远剥不到那个没有皮的核心。

波兰尼之后，日本管理学家野中郁次郎把他的理论简化成了著名的“SECI模型”，隐含地假设隐性知识可以被“外化”为显性知识。这个简化版极为流行，也是中文世界里“隐性知识”传播的主要通道。但它恰恰钝化了波兰尼最锐利的洞察。而今天所谓的“蒸馏员工”，本质上就是SECI模型在AI时代的翻版，仍然建立在同一个假设上：只要方法得当，隐性知识就能被完整地显性化。

波兰尼的回答斩钉截铁：不能。你以为自己在蒸馏知识，实际上你蒸馏出来的，不过是知识的副产品。

棋谱永远不是棋感

用深度学习来打个比方，或许更直观。

专家的大脑相当于一个训练了十年的神经网络。你让他写SOP，相当于让这个网络导出一批推理日志。这些日志确实反映出网络的部分能力，但远不等于网络本身。

然后你把这些日志塞给Agent，当作提示词用。

专家的输出，变成了Agent的输入。两个层次天然错位了一级。

现在有许多模型都在蒸馏Claude，用Claude输出的数据来训练自己的模型，但没有一个能真正达到Claude的水准。

因为你拿到的是一个高手下棋的棋谱，而不是高手这个人本身。棋谱能让初学者快速进步，但光啃棋谱是成不了高手的，因为高手真正的能力不在棋谱里，而在“棋感”里。

棋感是什么？是权重，是那个被十年对弈反复锤打而成的神经回路。它决定了一位高手“怎么想”，而不仅仅是“想什么”。你给AI再多棋谱，改变的是它“想什么”，而不是它“怎么想”。

这就是70%天花板的本质：SOP编码出来的是推理日志，而专家的直觉活在权重里。你永远蒸馏不出权重。

湿件里的体感

那专家那30%的判断力究竟从何而来？

在计算机文化中，相对于硬件和软件，人的大脑与身体被戏称为湿件——碳基的、含水的、活的运算基底。老冯把这30%的判断力，叫作湿件体感。

硬件和软件可以复制、可序列化。湿件却有一个致命的不同：计算和存储无法分离。 在冯·诺依曼架构里，CPU和内存是分开的。但在大脑里，神经元既是计算单元也是存储单元，知识结构决定着感知方式，感知方式又在持续重塑知识结构。每一次使用经验，都在改造基质本身。

而“体感”并不是一个纯粹的比喻。认知科学家Damasio提出了“躯体标记假说”：大脑在做出决策时，会重新激活过去类似情境中的身体状态——心率、肌肉张力、内脏感受——用这些信号迅速缩小决策空间。高级专业判断确实常常以身体感觉的方式浮现：胸口微微发紧、直觉不对、说不出哪里不舒服，但就是不安。

老飞行员在气流颠簸中一瞬间就知道“没事”还是“要拉起来”。老司机过弯时脚上自然就清楚该给多少油。老厨师颠勺时手上就知道咸淡的分寸。老中医三根手指一搭上去，就感受到脉搏是“滑”还是“涩”。这些判断都不是逻辑推理，而是身体在重放过去无数次相似情境的感觉模式。

这种体感如何生长出来？四个条件缺一不可：

时间。 不是在资料堆里读一万个小时，而是在真实场景中暴露一万个小时。

后果。 犯了错真的会出问题，没有真实的后果就没有情绪标记，模式就无法刻进身体，只会停留在表层记忆。

归因。 做了决策之后，能快速看到后果并能清晰地归因到自己头上，反馈链条不能断裂。

变异。 同类问题的不同变体反复涌现，逼迫身体发展出弹性，而不是背答案式的僵硬反应。

这四个条件合在一起，不是在完成信息的输入、存储和检索，而是神经回路在真实后果的压力下被反复雕刻，形成身体记忆。

在过去，这个过程有一个古老的名字：学徒制。师父带徒弟，不是把SOP塞给他，而是让他在真实环境中跟着干，用手去摸、用眼去看、用身体去试错。书读得再多不动手，永远形不成手感。手感只能在真实的环境中长出来。

这也是波兰尼六十年前就已经看得一清二楚的事情。

AI Agent的天花板

现在，用这个框架来审视AI Agent。

当前几乎所有的Agent框架，不管怎么包装，本质上都奋战在同一个层面——Harness层：系统提示词、工具定义、RAG知识库、SOP决策树、Few-shot示例。全部是显性的、可序列化的。用波兰尼的话说：全是焦点知识，全是推理日志。

Harness层的效果确实不错。一个顶尖专家把70%的能力编码进去，Agent就已经能在大部分日常场景中表现得像一个靠谱的中级从业者。这已经具备了巨大的商业价值，因为现实中有大量日常工作本就是例行的、可规则化的。

但天花板就在那儿，纹丝不动。

那种“SOP说不清楚、只有到了现场才知道”的专家直觉，根本不在Harness层。它活在权重里。而目前的Agent架构不动权重，LLM在推理时是“只读”状态——无论你给它多丰富的上下文，它的参数一个也不会变。

这意味着一个关键差异：当前的Agent可以在上下文中“记住”上次犯的错误，但并不会因此“变成”一个不再犯这种错误的Agent。 记住教训是数据层面的操作；长出直觉是权重层面的改变。前者是给模型看了新的棋谱，后者是重塑了模型的下棋回路。

它能仿真出一个照章办事的中级工程师，却模拟不出一位专家的直觉。

给Agent一副身体

那怎么办？老冯的判断是分两步走。

第一步：给Agent一个可以“住进去”的环境。

波兰尼强调知识必须“寓居”在环境里。翻译成工程语言就是：Agent不能只有大脑，还需要一个持久的、有状态的、有后果的运行环境。这个东西就叫Runtime——Agent的身体。

老冯自己做的DBA Agent，它的Runtime就是Pigsty，Pigsty是它“寓居”的家。监控系统是它的“眼睛”，CLI工具是它的“手脚”。它在这个环境里持续运行，每一次操作都有真实的后果，后果会被记录下来并影响后续的决策。这，就是学徒期——在真实环境中慢慢积累实践体感。

一个已经跑了一年的Agent和一个刚部署的同模型Agent，能力有天壤之别。不是模型变了，而是前者在Runtime里积累了大量经验：操作历史、失败记录、对这个系统的“脾气”的深刻理解。

第二步：让体感沉淀回权重。

光有Runtime还不够。你可以把实践中的经验记录下来，塞回提示词里，将Harness层的天花板再往上抬一抬，也许能摸到80%甚至90%分位点。但真正的专家直觉——那种不查记录就知道该怎么做的能力——老冯的直觉是，最终只能通过调整权重来实现。Agent积累的经验不能一辈子只待在上下文里，它得真正回灌到模型参数中去，真正改变它“怎么想”。

这是当前AI架构最根本的缺失之一。LLM推理时权重纹丝不动，不会因为今天的操作而在明天变成一个更好的模型。但生物大脑每时每刻都在重塑突触连接，尤其在睡眠期间。也许未来的方向会是某种持续学习机制：白天执行任务、积累经验，夜里定期增量微调、更新权重——像人类睡眠一样，白天干活，晚上整理内化。

但即便走到了这一步，冯·诺依曼架构下计算和存储的根本性分离，仍可能是一个无法绕开的瓶颈。真正的“每次使用都在改造自身”，或许需要全新的硬件范式。这或许也会成为本地推理一个真正的杀手级动机：运行在真实环境中、在与世界的互动里培养出湿件体感的千人千面的模型。

这些都是后话，但方向已经清晰可见。

智能可以下载，体感只能生长

回到开头的问题：专家能被蒸馏吗？

能。但只蒸馏得了70%。

那70%，是SOP、文档、规则，可以喂给AI，效果立竿见影。一个中高级水平的Agent足以接管大量重复性工作，为此付出的所有努力都完全值得。

但剩下的30%——专家的直觉、实践的体感、那种说不清却真实存在的判断力——蒸馏不出来。 波兰尼六十年前已经给出了最终解释：它不是信息，是结构；不是推理日志，是权重；不是你“拥有”的东西，是你“成为”的东西。

对人而言，你最不可替代的，不是你知道些什么，而是你被真实后果反复锤打之后“成为”的那个判断者。护城河不在脑子里，在身体里。AI可以复制你写下的一切，却复制不了你这个人。

对Agent而言，光有大脑和知识远远不够，它还需要身体和成长。Harness层走到70%，加上Runtime里的经验，也许能逼近85%，但要真正逼近专家水平，就必须触碰权重层——而这正是当前架构最缺的一环。

波兰尼用一生论证了一件事：知识不是一件“东西”，而是一种“关系”——认知者与世界之间活生生的、动态的耦合。你一旦把它从关系中抽出来，包装成可以传输的对象，它就不再是原来的东西了。

智能可以下载，体感只能生长。

六十年前那位放下实验室走进哲学森林的科学家所说出的道理，至今依然是AI时代的定海神针。

参考文献

Michael Polanyi, Personal Knowledge, 1958
Michael Polanyi, The Tacit Dimension, 1966
Antonio Damasio, Descartes’ Error, 1994
Ikujiro Nonaka, The Knowledge-Creating Company, 1995