马化腾点赞背后:AI Agent泡沫的冷思考与垂直破局之路
近日,一篇题为《几乎都在挂羊头卖狗肉,AI Agent的泡沫现在到底有多大?》的文章引发了广泛关注。该文观点较为中肯,同时也流露出对当前Agent发展态势的悲观情绪。
此文颇具价值,它系统梳理了多位身处行业一线的实践者对“通用Agent”这一概念的认知与看法。
文章以Manus公司的新产品“Wide Research”及其后续的撤资风波为切入点,深入剖析了国内外AI Agent领域存在的泡沫化乱象、其背后的深层成因以及参与者们未来的生存法则。
在与数位注重实践的技术专家交流后,我发现他们对AI现状的判断高度一致。以下是我对这些关键观点的一些延伸解读与拆解。
类Manus产品为何兴起?
在深入讨论之前,我们必须清醒地认识到一个基本事实:今年Agent概念之所以大火,首要前提是大模型的核心能力取得了跨越式进步,其次才是在此基础上,工具调用(tool-use)等层面实现了关键性突破。
大模型负责解决任务规划与调度等复杂问题。因此,Manus这类AI产品能够爆发,最根本的驱动力在于模型本身能力的质变。
工具链则致力于解决多模态交互与信息获取问题。无论是近期热门的MCP(模型上下文协议),还是Computer Use(计算机使用)概念,本质上都是AI多模态能力向外延伸的体现,旨在弥补AI在听觉、视觉、触觉等感知与操作层面的不足。
至于记忆与反馈迭代机制,则主要归属于数据工程的范畴。过去我们常称之为RAG(检索增强生成),近来也可能被称作上下文工程。精良的数据工程能有效为模型“投喂”准确信息,从而显著降低其产生“幻觉”的概率。
记忆体系过去难以实现,如今变得可行,其核心原因在于模型的上下文窗口长度得到了极大扩展。就目前趋势来看,突破百万上下文长度指日可待。
综上所述,Agent能够从概念走向实践,根基在于模型能力的增强。
在此基础之上,工具链的繁荣才得以显现:“从代码生成到浏览器使用(browser-use),再到计算机使用(computer-use),伴随着MCP这类通用接口的普及,Agent的工具调用能力得以强化,能够更高效地从外部获取信息,并与各类系统进行交互。”
下图可以更清晰地展示,今年Agent的爆发实质上是工具链与AI能力叠加的结果:

不过需要指出的是,通用Agent普遍采用browser-use或computer-use的方式,某种程度上也是一种无奈之举,因为大量网站并未开放规范的API接口。
“XX-use”并非万能钥匙
理想状态下,我们更希望Agent调用的是受控、可测试、可审计的标准函数(如通过MCP),而将Computer Use这类“黑盒”操作仅作为最后的兜底方案。
该项目就未使用Computer Use,一是因为应用场景足够单一明确,二是我们想验证基于AI生成代码(使用Claude)这一技术路径的可行性。
可以想象,当AI编程能力变得更强大、理解更精准时,整个Agent的架构可能实现自我闭环。这或许也是众多科技巨头密切关注该领域的原因:谁掌握了AI编程能力,谁就掌握了智能体能力扩展的“总开关”。这不再是开发单一应用,而是在构建一个能够自主生长应用的生态平台。
这符合OpenAI、谷歌等巨头“让模型吞噬一切”的终极愿景。然而,这条路径上的安全性挑战与实现难度极高,仍有漫长的道路需要探索……
与此同时,业内也涌现出许多消极的批判声音。
审视:来自业内的消极声音
尽管可能不够公允,但Manus已然成为通用Agent的代名词,也成了众矢之的。
从业者王显指出:“Manus前阵子刚推出的新功能Wide Research,我认为竞争力非常弱,对提升产品核心价值帮助不大。”
他的进一步观点更为激烈:“Manus从始至终,在产品设计思路上就是完全失败的。”
在他看来,早期采用“广而浅”的策略获取用户可以理解,但长期来看,这种模式无法抵御上游模型厂商的功能下沉和垂直领域专业厂商的渗透。
大家的批评焦点高度一致,都集中在 “能否真正解决问题” 上:
- 当用户面临真正复杂、专业的问题时,目前的通用Agent往往束手无策。
- 当一个Agent宣称自己能处理所有事情时,通常意味着它在任何一个特定领域都无法做到顶尖。
- ……
上述观点或许有些极端,因为通用Agent无疑代表了一个重要的技术发展方向,只是当前的发展阶段尚不成熟,表现欠佳。
其中一句批评尤为关键:“Manus仍然没有建立起有效的场景壁垒。”
它缺乏专业数据积累、没有专属的工具链、未经行业权威认证、未能与特定业务流程深度绑定集成,也没有切入高价值的核心业务场景。简而言之,它的可复制性太强,任何人都能尝试开发类似产品。 因此,它更像是对现有工程能力的延伸,而非在构建深厚的场景护城河。
“任何人都能做”意味着实现成本相对较低。但这里的“成本不高”是相对的,即便是垂直领域的Agent,也普遍面临以下挑战:
- 精准的意图识别:用户的需求往往模糊、多变且隐含深层意图。智能体必须理解用户的“言外之意”,这对用户体验是一道高门槛。解决它需要极其精细的提示工程设计和海量的对话数据进行调优。
- 强大的工具生态:智能体的能力边界取决于它能调用多少、多好的工具。一个Agent能否真正解决问题,要看它能否高效集成并利用各类服务(如预订、查询、控制、分析等)。自建工具链成本极高,因此与第三方服务的集成能力至关重要。
- 深厚的领域知识:在垂直行业中,通用知识远远不够。需要将行业的SOP(标准作业程序)、私有数据库、专家经验深度注入到智能体中。这部分工作是“脏活累活”,没有捷径,却正是构建竞争壁垒的关键。
这也正是红杉资本等机构推崇 OpenEvidence 这类项目的原因:AI应用的竞争重点,正从单纯的技术能力比拼,转向产品定义、用户体验打磨、生态整合与垂直行业知识深度的竞争。早期的市场红利,将属于那些在垂直领域扎得无比深入的团队。
那么,既然通用Agent尚不成熟,为何仍能吸引如此多的关注与追捧?
追捧的背后:期待与资本的共舞
王显甚至认为,这场通用Agent的泡沫是创业公司与资本市场共同催生的产物:
“Manus根本不是在认真做产品,而是在走资本路线,通过持续制造市场声量来获取更高额度的融资。至于创始人拿到钱后,是真正深入场景打磨产品,还是另有打算,只有他们自己清楚。从产品角度看非常失败,但从营销角度可谓极其成功。”
另一位从业者张森森也表示:“国内许多Agent产品功能堆砌繁多,但大多是快速拼凑的结果,缺乏对核心痛点的聚焦。”
“例如,市面上大量集成了文案写作、PPT制作、资料查询、图片生成等功能的产品,其中不乏大厂身影。它们都具有通用Agent‘大而全’的特点,但功能多而不精。写代码准确率不高,数据分析缺乏可解释性,设计产出质量不稳定。初次体验或许觉得新奇,但难以形成长期依赖。它们很少能提供明确绑定工作流、可衡量KPI的实际交付成果。”
那么,正如各位观察者所言,既然通用Agent还不成熟,为何大家依然趋之若鹜?这里有一个真实案例:
前两个月,我的一位好友(某公司高管)所在团队开发了一款类Manus产品。他私下向我吐槽产品毫无技术壁垒、一个月就开发完成、幻觉问题严重。然而,他们公司的老板却当即决定 All In(全力投入)!
原因无他,只因马化腾为他们的产品点了赞! 个人的看法或许不重要,资本的看法才至关重要。并且,正因为这类产品初期开发成本相对较低,创业公司更乐于投身其中。
另一方面,我组织的AI训练营中,有位学员刚获得了一亿元的融资。他们从事的是垂直领域的Agent创业。恰恰是在那个细分领域,Manus等通用产品遇到的绝大多数难题,他们也几乎全部遭遇了:
- 产品的宣传效果与实际能力存在显著落差,并非完全无用,但差距明显。
- 能够成功演示的,往往是任务中那20%高度标准化的部分;而真正构成工作核心的,是剩下80%充满“长尾异常”和复杂多变的现实情况。
从这些角度看,原文的剖析可谓一针见血,十分中肯。
总而言之,我从中得出的结论是:作为既得利益者,通用Agent的鼓吹者绝不会承认自身的局限。资本参与者短期内也不太关心它们是否真的‘能行’,毕竟这批人是目前最懂AI的群体,相比其他人,他们成功的概率看起来总是更高一些。
接下来,我们开始探讨Agent存在缺陷的根本原因。
深挖:Agent缺陷的根源何在?
关于这部分论述,我特别认同郭炜的观点:“许多Agent公司并未真正沉下心来深入用户场景。”
不过,对于原因,我有更切身的体会:当前国内的创业生存环境异常严峻。以我自身的创业经历为例:
- 花了3个月才拿下电信业务经营许可证,App得以勉强上线。
- 历时6个月,算法备案仍未通过,导致核心AI功能迟迟无法上线。
- ……
不得不说,国内的创业环境在某些方面确实增加了额外负担。这间接加剧了创业者们对资本的极度渴望。其结果便是,即使明知通用Agent不甚成熟,为了迎合市场热点与投资偏好,大家也会趋之若鹜地跟进。坦白说:
我们计划在11月发布的产品中,也会包含一个Agent模块。我们并不指望它解决所有问题,但在那20%我们精心设计的核心场景里,我们会要求它表现出色!
这并非完全从技术可能性出发,而是因为资本关注什么,我们有时不得不做什么。没有基本的资金流入,创业项目可能瞬间夭折。
因此,与其单纯从技术层面寻找Agent缺陷的根源,不如从环境层面审视问题:由于种种现实压力,国内的创业者普遍显得过于急躁,很难有足够的时间和资源沉下心去深耕枯燥但至关重要的数据工程!
我过去在公司担任AI项目负责人时,每周需要汇报三次进度;我的那位CEO朋友,每周也要应对多位投资人的频繁“关切”。这些都是实实在在的压力来源。
如果有人问我Agent缺陷的根本原因,我认为答案在于 “需要在每一个垂直领域做深做透。未来,或许由多个专业‘专家Agent’协同工作,通用Agent只负责初步的意图识别和任务分发即可。”
从纯技术实现角度看,这并不十分困难。真正的难点在于对行业Know-How(专业知识)的系统性梳理与知识结构的长期沉淀。然而,又有几家公司(即便是资金流健康的公司也常感焦虑)拥有足够的耐心和资本去消耗呢?
我开发的一个用于管理数字分身的Agent项目,断断续续折腾了一年多,期间因生存问题数次中断……
综上所述,Agent的根本缺陷,在于工程实施的难度、资本市场的浮躁与长期投入决心的匮乏。
五大鸿沟:理想与现实的差距
原文犀利地指出了通用Agent“挂羊头卖狗肉”的现状。结合我们自身的观察,可将其根本缺陷归结于 工程、资本与决心 这三座大山。而这三大症结的背后,又与异常艰难的创业环境息息相关……
由于原文篇幅较长,我们不逐一展开,但其中几个要点至关重要:
一、因上下文缺失(知识语境不足)导致的MCP协议损耗 不存在一个“万能Agent”能独力应对所有任务。更可行的路径是通过Agent-to-Agent(A2A)协议,让多个精通各自领域的垂直Agent协作,共同完成复杂任务。
二、无法根除的“幻觉”难题 通用Agent在用户端遇冷,另一个关键原因是缺乏 模型的可观测性。在严肃的生产环境中,对应用的准确率要求极高,95%的准确率往往都不可接受,必须追求99%乃至更高。
正因如此,AI Workflow(工作流)在企业级场景中备受青睐。未来,“Workflow(工作流)+ Agent”的混合模式可能成为一种主流选择——用确定性的流程框架,去约束和引导AI不确定性的决策。
三、被过度炒作的多智能体(Multi-Agent)概念 在现阶段,单个智能体已经能够解决许多问题。多智能体系统虽然前景广阔,但当前阶段盲目增加系统复杂度往往得不偿失,应保持理性看待。
至于上下文长度与模型能力的平衡等问题,大家有所了解即可,它们并非当前最核心的瓶颈。
破局之道:垂直领域的深耕案例
于是,一个核心问题浮现:既然通用Agent目前还不够靠谱,那么是否存在相对靠谱的垂直领域Agent案例?
作为曾经的AI医疗领域从业者,我认为被头部风投押注并在医生群体中快速破圈的 OpenEvidence,提供了一个极具参考价值的范本。
原因很直接:它将“智能体”拆解为“行业问题→数据语义→确定性交付”这一最基础的逻辑链条,用高度工程化的思维来构建产品。下面我们用更通俗的语言拆解一下,看看它究竟做对了什么:
一、精准锁定单一人群
OpenEvidence只服务于持有执业资质的医生,坚决不做“万能健康助手”。 这一步看似放弃了广阔的消费者市场,实则精准地过滤掉了80%的模糊输入和非典型需求,从而获得了高密度、可验证的专业问题场景。更重要的是,由此积累的数据价值会随时间推移不断增长。
二、强调信息来源与全链路可追溯
OpenEvidence在信息的可追溯性与高质量溯源方面做得极为出色。 它的每一个回答都必须附带引用,且来源严格限定于《新英格兰医学杂志》(NEJM)、《美国医学会杂志》(JAMA)等经过同行评议的顶级权威医学文献。 这种设计将大模型的“幻觉”空间压缩到了医生可接受的专业范围之内。
三、产品化“证据链”,而非打造聊天机器人
OpenEvidence的另一个核心在于,它基于高质量数据生成可溯源的“思维链”。 其产品核心特性不是“聊天对话”,而是结构化呈现“证据+临床要点”的工作流产品,精准服务于床旁快速决策这一明确、高价值的场景。 高质量的数据 + 模拟专家医生的推理方式,双重保障下大幅降低了幻觉产生的可能性。
四、以工程确定性换取智能的可靠边界
从权威内容合作、证据处理管线,到模型与工作流的全程可观测,OpenEvidence持续将“软性”的人工智能嵌入到“硬性”的标准化流程中。 正如其团队所强调的,其核心是建立“临床证据→结构化→可追溯”的严谨工程秩序。
用一句话总结:他们在坚实的数据工程基础上,构建了一个自我强化的飞轮系统,这使得产品得以持续迭代,越做越好。 这种看似笨拙、需要缓慢积累与持续打磨的方式,实际上已经与追求速成的通用Agent拉开了显著的差距。
总结
综上,与其说OpenEvidence是一个垂直领域的Agent—— “一个会聊天的医生”,不如说它是一个高度专业化的 “临床证据决策支持工作流” 产品。
它用高度确定性、结构化的工程化工作流,兜底了大模型内在的不确定性。这条路径,与我们前文探讨的“Workflow + Agent”融合模式不谋而合。
当然,这只是AI Agent在垂直领域落地的成功案例之一。未来,必然还会涌现出更多元、更出色的实践路径与商业模式