模型乏力下的生态突围：OpenAI DevDay 2025 观察

April 5, 2026

全球人工智能领域的竞争已进入白热化阶段。国内的激烈内卷众所周知，飞书与钉钉等产品发布会你方唱罢我登场。然而，国际赛场上的角逐更为惊心动魄。谷歌凭借其强大的基座模型Gemini，结合图像视频生成套件（如Nano Banana、Veo3），展示了令人瞩目的技术实力。

与此同时，Meta也从AI浪潮中获得了巨大收益，其关键节点与市场反应如下：

日期	事件	Meta 当日/次日股价反应¹
2023‑02‑24	Llama‑1 首次对学术界开放	2023 全年累计 ≈ +150%
2023‑07‑18	Llama‑2 商用开源	当周连续收涨
2024‑02‑02	Q4 业绩电话会重点强调 AI / Llama	+20.3%（单日）
2024‑04‑18	Llama‑3 (8B/70B) 发布	盘后 +1.8%；次日 +2%
2024‑04‑25	宣布“数百亿”AI CapEx 计划	‑13%（单日）
2025‑01‑27	DeepSeek‑R1 免费发布，下载量反超 ChatGPT	‑≈4%（Nasdaq 同跌 ‑3.1%）
2025‑07‑19	Zuckerberg 再提“数千亿美元”AI 投资，Llama‑4 训练中	YTD ≈ +20%

然而，自DeepSeek等开源模型崛起后，Llama在开源领域的领先地位已不再稳固，甚至一度陷入数据造假的争议。

为突破技术瓶颈，Meta几乎将目光锁定在OpenAI身上，试图挖掘其核心人才。今年六月，Meta宣布组建“超级智能实验室”，计划投入数十亿美元资金，旨在组建一支规模精炼但人才密度极高的顶尖团队。

综上所述，无论是谷歌的技术反超、Meta的激进人才策略，还是国内DeepSeek、QWen等公司的迅猛追赶，都让昔日的AI霸主OpenAI倍感压力。为此，OpenAI不断升级其模型，但近期推出的GPT-5并未带来预期的颠覆性体验。

眼见在基座模型层面难以拉开显著差距，OpenAI转变了策略，开始将重点转向应用生态建设。因此，在10月7日凌晨举行的**OpenAI年度开发者大会（Dev Day 2025）**上，其整体方向被不少人评价为略显 “不思进取”。

按照山姆·奥特曼的阐述，本次发布会的核心在于 “如何让人更好地利用AI进行创造” ，主要聚焦于四个方向：

Apps inside ChatGPT：引入“应用商店”模式，吸引大量开发者入驻平台；
Agent Kit：一套内置的智能体构建工具集，可类比为字节跳动旗下的Coze平台；
Codex 正式版：为追赶Claude Code而推出的编程助手；
多模态能力：发布了包括gpt-image-1-mini、GPT-5 Pro、Sora、Real-Time Mini在内的多个API。

可以看出，在基座模型竞赛中未能确立绝对优势后，OpenAI转而从事更具确定性的工作，例如将现有技术进行排列组合以构建应用层产品。事实上，上述提到的功能点业已不同程度地出现在其他平台，并无一项是OpenAI独有的强项。此次大会更像是一次系统的技术路线图梳理，展示了其构建应用生态的蓝图。

LLM 操作系统

“Apps inside ChatGPT”意味着OpenAI推出了自己的应用SDK。关于“AI时代的操作系统”这一概念，其实早已有之，例如在之前的红杉资本会议上就曾被提出：云时代属于微软，移动时代属于iOS/Android，而AI时代的操作系统将不再是安装在设备上的软件，而是一个智能的任务调度系统。

当前，大家较为熟悉的任务调度系统案例包括Manus以及正在进行变革的各类AI浏览器。

由于模型自身能力存在局限，往往需要借助各种插件来扩展，这便催生了MCP等协议。目前，应用此类协议较为成功的仍是各类开发平台或低代码平台，如Dify、Coze等。

另一方面，LLM应用商店也并非全新概念。如今ChatGPT向开发者开放，允许其构建原生应用，其底层逻辑与苹果App Store、微信小程序如出一辙，本质是一场关于生态与平台流量的游戏。

普通开发者期望从平台获得更多流量，而平台则希望吸引更多开发者以增强自身能力，最终形成吸引更多流量的正向循环。正是在此背景下，OpenAI SDK应运而生。

理解了其诞生契机，便不难预测OpenAI SDK将提供哪些功能，例如：数据连接、事件触发、交互式卡片等。在具体案例展示中，也选取了在线教育、设计平台、房地产等典型场景。

最后，有流量的地方就可能出现“灰色/擦边球”操作，一旦被此类操作裹挟，便不再是健康的AI生态。平台化与商业化虽是必经之路，但如何维护良性生态，防止灰产在其中肆意牟利，是OpenAI必须提前深思的问题。

AgentKit

AgentKit是一套内置于OpenAI平台的完整构建模块，旨在帮助开发者以更低的成本和更短的时间，完成从智能体原型设计到生产环境部署的全流程。它主要包含三大组件：

Agent Builder (智能体构建器)：一个可视化的工作流设计工具，核心操作方式是拖拽。
ChatKit (聊天工具包)：主要提供一些UI组件和用于减少开发工作量的集成功能。
Evals for Agents (智能体评估)：用于衡量智能体的性能，但其具体应用场景和价值尚不清晰。

坦率地说，AgentKit的推出令人颇感意外。因为当前市场上优秀的智能体平台已经层出不穷，例如Dify、Coze、n8n、FastGPT等。

无论怎样包装，AgentKit都难以摆脱一个基本事实：它是一个低代码平台。而低代码平台的生存依赖于两个核心前提：

第一，它本身是正确且好用的；第二，它能为开发者带来足够的流量或分发机会。

所谓“正确且好用”，主要取决于其生态完善度和公司的投入决心。如果OpenAI决意在此领域深耕，并将其视为战略的一部分，就必须明确其服务的目标用户画像。例如，飞书和钉钉的目标就非常清晰——争夺AI办公场景的流量入口。

然而，如果AI办公是OpenAI的潜在目标，那么AgentKit的设计出发点可能就存在偏差。

因为无论是飞书还是钉钉，其竞争焦点都落在了“AI表格”上。从企业需求的本质来看，许多公司迫切需要一套能够实现多人分散录入 → 集中汇总 → 统一分析 → 按权限查询的轻型系统。这套系统恰恰是AI办公流量的关键入口，是一块巨大的市场蛋糕。

以往，Excel、OA系统、低代码平台都在争夺这份市场份额。如今，竞争尤为激烈的是飞书多维表格与钉钉AI表格。更确切地说，许多公司正以Coze、Dify等平台为外壳，实质推销其AI表格解决方案。

之所以AI表格是核心，源于实践经验：业务部门在实际工作中常常对基于聊天界面的Agent体验感到不满甚至排斥。他们已习惯于Excel式的操作，对于HR、财务等角色而言，从一张表格中快速定位关键数据是一种固定且高效的工作模式，Excel才是他们真正的“工作台”。

综上，如果OpenAI的目标是切入AI办公，那么它理应同步推出强大的表格应用；如果不是，那么AgentKit这类低代码平台对OpenAI的战略意义就显得有些模糊。至少，在我身边的开发者圈子中，若要构建生产级别的智能体，他们通常会选择自行编写代码…

最后，即便OpenAI有意涉足此领域，它也缺乏像微信或钉钉那样的即时通讯生态作为支撑。因此，AgentKit的出现及其定位，确实令人感到费解。

Codex

Codex的亮相是最不令人意外的。我们此前就已分析过，无论是Coze还是多维表格，都属于低代码范畴，它们对效率的提升存在天花板。

我们真正需要的或许并非低代码平台，而是能够加速进入“自然语言编程”时代的技术。得益于GitHub的海量优质代码语料，Cursor、Claude Code等工具已经为我们揭示了初步的可能性。

于是，OpenAI再次展现了其 “全都要” 的风格，颇为直接地影响了与其紧密合作的伙伴——那些核心功能完全建立在OpenAI模型之上的应用，例如Cursor。

这可能会让Cursor陷入尴尬境地，因为它过往积累的大量算法优化与提示词工程数据，很可能已在合作中被OpenAI获取。如果作为基座模型供应商开始与应用层公司争夺市场，这种局面将颇具争议。

此前，我曾推测OpenAI可能会通过投资或战略合作的方式，联合Cursor共同对抗Claude Code。然而，它最终选择了独立发展，这或许也意味着行业格局的新变化。

多模态

此外，大会还展示了多模态技术的最新进展，其中特别需要提及的是近期备受关注且敏感的Sora2。

前段时日，Nano Banana取得了现象级成功，而在国庆期间，Sora App也迅速走红。这表明在国内市场，图像、视频类AI应用似乎更容易获得大众青睐，因其商业化路径更为直观。

实际上，Sora2的成功并非偶然，只能说OpenAI在资源投入上更为果决。因为不久之前，谷歌也推出了一套表现不俗的视频图像全家桶工具。当时，谷歌发布了三款面向创作者的AI工具：

Flow：实现从脚本、分镜到配乐、配音的一站式生成。
Veo 3：让AI视频摆脱“无声时代”，支持生成原生音轨与更丰富的物理细节。
Imagen 4：图生图模型，能在2K分辨率下保持Logo与文字的清晰度。

这三者的组合，犹如为创作者配备了导演、摄影师和视觉总监的完整团队：

甚至身边的朋友也曾鼓励我尝试利用这些工具制作AI短剧：

然而，为何谷歌的套件未能引爆市场，而后来的Nano Banana却能迅速走红？答案很简单：使用门槛与价格。

如果一个工具门槛过高，通常意味着它尚未准备好面向大众，可能是价格不菲，也可能是功能体验不完整。于是，五个月后，OpenAI反而在这个领域拔得头筹，当然这也得益于其生成效果确实足够逼真。只不过，这种领先优势可能不会持续太久，预计最多两个月。

但这一领域面临的最大挑战可能仍是监管与版权问题，视频内容的维权难度比文字更高。

结语

近期，OpenAI在核心基座模型能力侧的进展似乎陷入瓶颈，于是它开始选择看似更“简单”的应用层赛道进行发力。这不禁让人联想到两年多前的百度。

当时，百度的文心大模型本身尚未臻于完善，但其销售与市场策略却已全面铺开，急于在国内开拓B端市场。

最终的结果大家有目共睹：一个连基础模型都未能做到顶尖的团队，又如何能在复杂的企业服务领域获得成功？

在此，或许可以向OpenAI这位“老大哥”提出一点建议：应用确实是AI价值实现的最终场景，但这更多是生态合作伙伴的未来。OpenAI是否应该更加专注于其基座模型的研发与突破，而将应用创新交给更擅长此道的公司？避免过度消耗自身的精力与战略焦点。毕竟，

“Attention is all you need”的时代或许已经过去，如今技术颠覆的速度快得惊人，可能以月甚至以周为单位。