专家能被蒸馏吗?从波兰尼默会知识看AI的70%天花板
波兰尼的“默会知识”在AI时代被重新唤醒:真正的直觉、体感与判断力或许只能在实践中生长,而能写下来的那部分,至多占到能力的七成。
知识的“蒸馏”:一个诱人的幻象
近来常听到一种说法:把员工的知识“蒸馏”进AI。
做法听起来非常直接:让资深员工撰写标准作业流程(SOP),整理排障手册,把多年累积的经验沉淀成文本,然后作为上下文送给智能体,让模型复现这个人的能力。计算也很清楚——一个人只能7×24盯着一套系统,AI却可以同时盯住一万套。把专家蒸馏成Agent,似乎就等于把一个人复制一万份。
许多公司已经开始这么干了。DBA Agent、运维Agent、客服Agent、法务Agent遍地开花。老冯自己也在做DBA Agent。但我还是想说一句不太好听的真话:这条路有一个非常硬的天花板,而大部分人还没有撞到它。
难以逾越的70%
我自己就是一个活生生的例子。
做了十年PostgreSQL,在PG DBA这个领域几乎触碰到了顶点。我确实能把很多东西写成文档:参数怎么调、索引怎么建、高可用怎么搭、备份恢复怎么做——这些知识是可以显性化的,写出来就是SOP,喂给AI就能用。开源PG发行版Pigsty某种意义上就是我自己蒸馏出来的产物,是把专家经验固化成代码和配置。
但我必须非常坦诚地说:能写出来的,大约只占我能力的70%。
另外30%是什么?是我看一眼Grafana仪表盘就觉得“不对劲”的那种感觉。是两个方案都说得通的时候,我选了那个“对”的,但要我解释为什么,只能说“直觉”。是生产环境突然冒出一个从没见过的故障,所有的文档都没有覆盖,但我能从过去经验的碎片中涌现出一条新的解决路径。
这些东西,我写不出来。不是不肯写,而是它们根本不以“可写”的形式存在。写SOP时我常常卡在某一刻:明明在实际操作中会根据“当下的感觉”做一个判断,但这个判断却无法被编码成一条死规则。最后只能在文档里写上一句“请根据实际情况酌情处理”——这八个字,就是那30%的马甲。
你让一个初级工程师看到“请根据实际情况酌情处理”,他只会一脸茫然。因为“酌情”的能力,从来都不在文档里。
波兰尼半个世纪前的洞察
这个现象并非我的独到发现。早在六十多年前,就有人把它彻底说透了。
1958年,匈牙利裔英国学者迈克尔·波兰尼在他的巨著《个人知识》中写下了一句震动人心的命题:
“We can know more than we can tell.”
我们所知道的,远比我们能说出来的多。

波兰尼不是书斋里的空想家。他首先是一位硬核科学家——物理化学家,在柏林威廉皇帝研究所泡了十三年,发表了两百多篇论文,是势能面理论的奠基人。1948年,他把物理化学的教席换成了社会研究的教席,全身心投入哲学。因为他从自己漫长的科研实践中深刻地感到:最重要的那部分知识,恰恰无法被形式化方法捕捉。
他用毕生心血搭建了一套认知理论,核心可以拆解为三层。
第一层:背景与焦点。所有的认知都具备双重结构。你钉钉子时,注意力在钉子上(焦点),而手掌的触感却只存在于模糊的背景觉察之中。你开车时注意力在路况上,方向盘的握感和踏板的控制则退为背景。关键在于,这个结构不可逆:钉钉子时一旦将注意力转向手掌肌肉的发力,你就立刻钉不准了。老司机开车时一旦刻意去琢磨脚下怎么踩刹车,反而容易踩错。有些知识只能待在“背景”里才能发挥作用。你一旦试图把它拎到“焦点”下仔细审视,它就会失效。
第二层:寓居。盲人用拐杖探路,意识并不在手柄上,而在路面上——拐杖已经成了他身体的延伸,他“住进”了拐杖里。同样,老司机“住进”了他的车,老厨师“住进”了他的厨房,资深程序员“住进”了他的编辑器。你把一个用了十年Vim的人换成别的编辑器,不只是换个工具那么简单,而是直接截断了他一部分思考能力。专家和他的工具、环境之间,不是简单的“使用”关系,而是“融合”关系。
第三层:不可完全形式化。这不只是“暂时说不出来”。波兰尼的主张更强硬:默会知识是全部知识的根基。你把一个技巧写成手册,读手册的人需要调用新的默会知识才能理解它。你把一层知识外化,底下立即又会冒出新的一层。就像剥洋葱,永远剥不到那个没有皮的核心。
波兰尼之后,日本管理学家野中郁次郎把他的理论简化成了著名的“SECI模型”,隐含地假设隐性知识可以被“外化”为显性知识。这个简化版极为流行,也是中文世界里“隐性知识”传播的主要通道。但它恰恰钝化了波兰尼最锐利的洞察。而今天所谓的“蒸馏员工”,本质上就是SECI模型在AI时代的翻版,仍然建立在同一个假设上:只要方法得当,隐性知识就能被完整地显性化。
波兰尼的回答斩钉截铁:不能。你以为自己在蒸馏知识,实际上你蒸馏出来的,不过是知识的副产品。
棋谱永远不是棋感
用深度学习来打个比方,或许更直观。
专家的大脑相当于一个训练了十年的神经网络。你让他写SOP,相当于让这个网络导出一批推理日志。这些日志确实反映出网络的部分能力,但远不等于网络本身。
然后你把这些日志塞给Agent,当作提示词用。
专家的输出,变成了Agent的输入。两个层次天然错位了一级。
现在有许多模型都在蒸馏Claude,用Claude输出的数据来训练自己的模型,但没有一个能真正达到Claude的水准。
因为你拿到的是一个高手下棋的棋谱,而不是高手这个人本身。棋谱能让初学者快速进步,但光啃棋谱是成不了高手的,因为高手真正的能力不在棋谱里,而在“棋感”里。
棋感是什么?是权重,是那个被十年对弈反复锤打而成的神经回路。它决定了一位高手“怎么想”,而不仅仅是“想什么”。你给AI再多棋谱,改变的是它“想什么”,而不是它“怎么想”。
这就是70%天花板的本质:SOP编码出来的是推理日志,而专家的直觉活在权重里。你永远蒸馏不出权重。
湿件里的体感
那专家那30%的判断力究竟从何而来?
在计算机文化中,相对于硬件和软件,人的大脑与身体被戏称为湿件——碳基的、含水的、活的运算基底。老冯把这30%的判断力,叫作湿件体感。
硬件和软件可以复制、可序列化。湿件却有一个致命的不同:计算和存储无法分离。 在冯·诺依曼架构里,CPU和内存是分开的。但在大脑里,神经元既是计算单元也是存储单元,知识结构决定着感知方式,感知方式又在持续重塑知识结构。每一次使用经验,都在改造基质本身。
而“体感”并不是一个纯粹的比喻。认知科学家Damasio提出了“躯体标记假说”:大脑在做出决策时,会重新激活过去类似情境中的身体状态——心率、肌肉张力、内脏感受——用这些信号迅速缩小决策空间。高级专业判断确实常常以身体感觉的方式浮现:胸口微微发紧、直觉不对、说不出哪里不舒服,但就是不安。
老飞行员在气流颠簸中一瞬间就知道“没事”还是“要拉起来”。老司机过弯时脚上自然就清楚该给多少油。老厨师颠勺时手上就知道咸淡的分寸。老中医三根手指一搭上去,就感受到脉搏是“滑”还是“涩”。这些判断都不是逻辑推理,而是身体在重放过去无数次相似情境的感觉模式。
这种体感如何生长出来?四个条件缺一不可:
时间。 不是在资料堆里读一万个小时,而是在真实场景中暴露一万个小时。
后果。 犯了错真的会出问题,没有真实的后果就没有情绪标记,模式就无法刻进身体,只会停留在表层记忆。
归因。 做了决策之后,能快速看到后果并能清晰地归因到自己头上,反馈链条不能断裂。
变异。 同类问题的不同变体反复涌现,逼迫身体发展出弹性,而不是背答案式的僵硬反应。
这四个条件合在一起,不是在完成信息的输入、存储和检索,而是神经回路在真实后果的压力下被反复雕刻,形成身体记忆。
在过去,这个过程有一个古老的名字:学徒制。师父带徒弟,不是把SOP塞给他,而是让他在真实环境中跟着干,用手去摸、用眼去看、用身体去试错。书读得再多不动手,永远形不成手感。手感只能在真实的环境中长出来。
这也是波兰尼六十年前就已经看得一清二楚的事情。
AI Agent的天花板
现在,用这个框架来审视AI Agent。
当前几乎所有的Agent框架,不管怎么包装,本质上都奋战在同一个层面——Harness层:系统提示词、工具定义、RAG知识库、SOP决策树、Few-shot示例。全部是显性的、可序列化的。用波兰尼的话说:全是焦点知识,全是推理日志。
Harness层的效果确实不错。一个顶尖专家把70%的能力编码进去,Agent就已经能在大部分日常场景中表现得像一个靠谱的中级从业者。这已经具备了巨大的商业价值,因为现实中有大量日常工作本就是例行的、可规则化的。
但天花板就在那儿,纹丝不动。
那种“SOP说不清楚、只有到了现场才知道”的专家直觉,根本不在Harness层。它活在权重里。而目前的Agent架构不动权重,LLM在推理时是“只读”状态——无论你给它多丰富的上下文,它的参数一个也不会变。
这意味着一个关键差异:当前的Agent可以在上下文中“记住”上次犯的错误,但并不会因此“变成”一个不再犯这种错误的Agent。 记住教训是数据层面的操作;长出直觉是权重层面的改变。前者是给模型看了新的棋谱,后者是重塑了模型的下棋回路。
它能仿真出一个照章办事的中级工程师,却模拟不出一位专家的直觉。
给Agent一副身体
那怎么办?老冯的判断是分两步走。
第一步:给Agent一个可以“住进去”的环境。
波兰尼强调知识必须“寓居”在环境里。翻译成工程语言就是:Agent不能只有大脑,还需要一个持久的、有状态的、有后果的运行环境。这个东西就叫Runtime——Agent的身体。
老冯自己做的DBA Agent,它的Runtime就是Pigsty,Pigsty是它“寓居”的家。监控系统是它的“眼睛”,CLI工具是它的“手脚”。它在这个环境里持续运行,每一次操作都有真实的后果,后果会被记录下来并影响后续的决策。这,就是学徒期——在真实环境中慢慢积累实践体感。
一个已经跑了一年的Agent和一个刚部署的同模型Agent,能力有天壤之别。不是模型变了,而是前者在Runtime里积累了大量经验:操作历史、失败记录、对这个系统的“脾气”的深刻理解。

第二步:让体感沉淀回权重。
光有Runtime还不够。你可以把实践中的经验记录下来,塞回提示词里,将Harness层的天花板再往上抬一抬,也许能摸到80%甚至90%分位点。但真正的专家直觉——那种不查记录就知道该怎么做的能力——老冯的直觉是,最终只能通过调整权重来实现。Agent积累的经验不能一辈子只待在上下文里,它得真正回灌到模型参数中去,真正改变它“怎么想”。
这是当前AI架构最根本的缺失之一。LLM推理时权重纹丝不动,不会因为今天的操作而在明天变成一个更好的模型。但生物大脑每时每刻都在重塑突触连接,尤其在睡眠期间。也许未来的方向会是某种持续学习机制:白天执行任务、积累经验,夜里定期增量微调、更新权重——像人类睡眠一样,白天干活,晚上整理内化。
但即便走到了这一步,冯·诺依曼架构下计算和存储的根本性分离,仍可能是一个无法绕开的瓶颈。真正的“每次使用都在改造自身”,或许需要全新的硬件范式。这或许也会成为本地推理一个真正的杀手级动机:运行在真实环境中、在与世界的互动里培养出湿件体感的千人千面的模型。
这些都是后话,但方向已经清晰可见。
智能可以下载,体感只能生长
回到开头的问题:专家能被蒸馏吗?
能。但只蒸馏得了70%。
那70%,是SOP、文档、规则,可以喂给AI,效果立竿见影。一个中高级水平的Agent足以接管大量重复性工作,为此付出的所有努力都完全值得。
但剩下的30%——专家的直觉、实践的体感、那种说不清却真实存在的判断力——蒸馏不出来。 波兰尼六十年前已经给出了最终解释:它不是信息,是结构;不是推理日志,是权重;不是你“拥有”的东西,是你“成为”的东西。
对人而言,你最不可替代的,不是你知道些什么,而是你被真实后果反复锤打之后“成为”的那个判断者。护城河不在脑子里,在身体里。AI可以复制你写下的一切,却复制不了你这个人。
对Agent而言,光有大脑和知识远远不够,它还需要身体和成长。Harness层走到70%,加上Runtime里的经验,也许能逼近85%,但要真正逼近专家水平,就必须触碰权重层——而这正是当前架构最缺的一环。
波兰尼用一生论证了一件事:知识不是一件“东西”,而是一种“关系”——认知者与世界之间活生生的、动态的耦合。你一旦把它从关系中抽出来,包装成可以传输的对象,它就不再是原来的东西了。
智能可以下载,体感只能生长。
六十年前那位放下实验室走进哲学森林的科学家所说出的道理,至今依然是AI时代的定海神针。
参考文献
- Michael Polanyi, Personal Knowledge, 1958
- Michael Polanyi, The Tacit Dimension, 1966
- Antonio Damasio, Descartes’ Error, 1994
- Ikujiro Nonaka, The Knowledge-Creating Company, 1995