模型乏力下的生态突围:OpenAI DevDay 2025 观察
全球人工智能领域的竞争已进入白热化阶段。国内的激烈内卷众所周知,飞书与钉钉等产品发布会你方唱罢我登场。然而,国际赛场上的角逐更为惊心动魄。谷歌凭借其强大的基座模型Gemini,结合图像视频生成套件(如Nano Banana、Veo3),展示了令人瞩目的技术实力。
与此同时,Meta也从AI浪潮中获得了巨大收益,其关键节点与市场反应如下:
| 日期 | 事件 | Meta 当日/次日股价反应¹ |
|---|---|---|
| 2023‑02‑24 | Llama‑1 首次对学术界开放 | 2023 全年累计 ≈ +150% |
| 2023‑07‑18 | Llama‑2 商用开源 | 当周连续收涨 |
| 2024‑02‑02 | Q4 业绩电话会重点强调 AI / Llama | +20.3%(单日) |
| 2024‑04‑18 | Llama‑3 (8B/70B) 发布 | 盘后 +1.8%;次日 +2% |
| 2024‑04‑25 | 宣布“数百亿”AI CapEx 计划 | ‑13%(单日) |
| 2025‑01‑27 | DeepSeek‑R1 免费发布,下载量反超 ChatGPT | ‑≈4%(Nasdaq 同跌 ‑3.1%) |
| 2025‑07‑19 | Zuckerberg 再提“数千亿美元”AI 投资,Llama‑4 训练中 | YTD ≈ +20% |
然而,自DeepSeek等开源模型崛起后,Llama在开源领域的领先地位已不再稳固,甚至一度陷入数据造假的争议。

为突破技术瓶颈,Meta几乎将目光锁定在OpenAI身上,试图挖掘其核心人才。今年六月,Meta宣布组建“超级智能实验室”,计划投入数十亿美元资金,旨在组建一支规模精炼但人才密度极高的顶尖团队。

综上所述,无论是谷歌的技术反超、Meta的激进人才策略,还是国内DeepSeek、QWen等公司的迅猛追赶,都让昔日的AI霸主OpenAI倍感压力。为此,OpenAI不断升级其模型,但近期推出的GPT-5并未带来预期的颠覆性体验。
眼见在基座模型层面难以拉开显著差距,OpenAI转变了策略,开始将重点转向应用生态建设。因此,在10月7日凌晨举行的**OpenAI年度开发者大会(Dev Day 2025)**上,其整体方向被不少人评价为略显 “不思进取”。

按照山姆·奥特曼的阐述,本次发布会的核心在于 “如何让人更好地利用AI进行创造” ,主要聚焦于四个方向:
- Apps inside ChatGPT:引入“应用商店”模式,吸引大量开发者入驻平台;
- Agent Kit:一套内置的智能体构建工具集,可类比为字节跳动旗下的Coze平台;
- Codex 正式版:为追赶Claude Code而推出的编程助手;
- 多模态能力:发布了包括gpt-image-1-mini、GPT-5 Pro、Sora、Real-Time Mini在内的多个API。
可以看出,在基座模型竞赛中未能确立绝对优势后,OpenAI转而从事更具确定性的工作,例如将现有技术进行排列组合以构建应用层产品。事实上,上述提到的功能点业已不同程度地出现在其他平台,并无一项是OpenAI独有的强项。此次大会更像是一次系统的技术路线图梳理,展示了其构建应用生态的蓝图。
LLM 操作系统
“Apps inside ChatGPT”意味着OpenAI推出了自己的应用SDK。关于“AI时代的操作系统”这一概念,其实早已有之,例如在之前的红杉资本会议上就曾被提出:云时代属于微软,移动时代属于iOS/Android,而AI时代的操作系统将不再是安装在设备上的软件,而是一个智能的任务调度系统。
当前,大家较为熟悉的任务调度系统案例包括Manus以及正在进行变革的各类AI浏览器。
由于模型自身能力存在局限,往往需要借助各种插件来扩展,这便催生了MCP等协议。目前,应用此类协议较为成功的仍是各类开发平台或低代码平台,如Dify、Coze等。
另一方面,LLM应用商店也并非全新概念。如今ChatGPT向开发者开放,允许其构建原生应用,其底层逻辑与苹果App Store、微信小程序如出一辙,本质是一场关于生态与平台流量的游戏。
普通开发者期望从平台获得更多流量,而平台则希望吸引更多开发者以增强自身能力,最终形成吸引更多流量的正向循环。正是在此背景下,OpenAI SDK应运而生。
理解了其诞生契机,便不难预测OpenAI SDK将提供哪些功能,例如:数据连接、事件触发、交互式卡片等。在具体案例展示中,也选取了在线教育、设计平台、房地产等典型场景。

最后,有流量的地方就可能出现“灰色/擦边球”操作,一旦被此类操作裹挟,便不再是健康的AI生态。平台化与商业化虽是必经之路,但如何维护良性生态,防止灰产在其中肆意牟利,是OpenAI必须提前深思的问题。
AgentKit
AgentKit是一套内置于OpenAI平台的完整构建模块,旨在帮助开发者以更低的成本和更短的时间,完成从智能体原型设计到生产环境部署的全流程。它主要包含三大组件:
- Agent Builder (智能体构建器):一个可视化的工作流设计工具,核心操作方式是拖拽。
- ChatKit (聊天工具包):主要提供一些UI组件和用于减少开发工作量的集成功能。
- Evals for Agents (智能体评估):用于衡量智能体的性能,但其具体应用场景和价值尚不清晰。
坦率地说,AgentKit的推出令人颇感意外。因为当前市场上优秀的智能体平台已经层出不穷,例如Dify、Coze、n8n、FastGPT等。
无论怎样包装,AgentKit都难以摆脱一个基本事实:它是一个低代码平台。而低代码平台的生存依赖于两个核心前提:
第一,它本身是正确且好用的;第二,它能为开发者带来足够的流量或分发机会。
所谓“正确且好用”,主要取决于其生态完善度和公司的投入决心。如果OpenAI决意在此领域深耕,并将其视为战略的一部分,就必须明确其服务的目标用户画像。例如,飞书和钉钉的目标就非常清晰——争夺AI办公场景的流量入口。
然而,如果AI办公是OpenAI的潜在目标,那么AgentKit的设计出发点可能就存在偏差。
因为无论是飞书还是钉钉,其竞争焦点都落在了“AI表格”上。从企业需求的本质来看,许多公司迫切需要一套能够实现多人分散录入 → 集中汇总 → 统一分析 → 按权限查询的轻型系统。这套系统恰恰是AI办公流量的关键入口,是一块巨大的市场蛋糕。
以往,Excel、OA系统、低代码平台都在争夺这份市场份额。如今,竞争尤为激烈的是飞书多维表格与钉钉AI表格。更确切地说,许多公司正以Coze、Dify等平台为外壳,实质推销其AI表格解决方案。
之所以AI表格是核心,源于实践经验:业务部门在实际工作中常常对基于聊天界面的Agent体验感到不满甚至排斥。他们已习惯于Excel式的操作,对于HR、财务等角色而言,从一张表格中快速定位关键数据是一种固定且高效的工作模式,Excel才是他们真正的“工作台”。
综上,如果OpenAI的目标是切入AI办公,那么它理应同步推出强大的表格应用;如果不是,那么AgentKit这类低代码平台对OpenAI的战略意义就显得有些模糊。至少,在我身边的开发者圈子中,若要构建生产级别的智能体,他们通常会选择自行编写代码…
最后,即便OpenAI有意涉足此领域,它也缺乏像微信或钉钉那样的即时通讯生态作为支撑。因此,AgentKit的出现及其定位,确实令人感到费解。
Codex
Codex的亮相是最不令人意外的。我们此前就已分析过,无论是Coze还是多维表格,都属于低代码范畴,它们对效率的提升存在天花板。
我们真正需要的或许并非低代码平台,而是能够加速进入“自然语言编程”时代的技术。得益于GitHub的海量优质代码语料,Cursor、Claude Code等工具已经为我们揭示了初步的可能性。
于是,OpenAI再次展现了其 “全都要” 的风格,颇为直接地影响了与其紧密合作的伙伴——那些核心功能完全建立在OpenAI模型之上的应用,例如Cursor。
这可能会让Cursor陷入尴尬境地,因为它过往积累的大量算法优化与提示词工程数据,很可能已在合作中被OpenAI获取。如果作为基座模型供应商开始与应用层公司争夺市场,这种局面将颇具争议。
此前,我曾推测OpenAI可能会通过投资或战略合作的方式,联合Cursor共同对抗Claude Code。然而,它最终选择了独立发展,这或许也意味着行业格局的新变化。
多模态
此外,大会还展示了多模态技术的最新进展,其中特别需要提及的是近期备受关注且敏感的Sora2。
前段时日,Nano Banana取得了现象级成功,而在国庆期间,Sora App也迅速走红。这表明在国内市场,图像、视频类AI应用似乎更容易获得大众青睐,因其商业化路径更为直观。
实际上,Sora2的成功并非偶然,只能说OpenAI在资源投入上更为果决。因为不久之前,谷歌也推出了一套表现不俗的视频图像全家桶工具。当时,谷歌发布了三款面向创作者的AI工具:
- Flow:实现从脚本、分镜到配乐、配音的一站式生成。
- Veo 3:让AI视频摆脱“无声时代”,支持生成原生音轨与更丰富的物理细节。
- Imagen 4:图生图模型,能在2K分辨率下保持Logo与文字的清晰度。
这三者的组合,犹如为创作者配备了导演、摄影师和视觉总监的完整团队:

甚至身边的朋友也曾鼓励我尝试利用这些工具制作AI短剧:

然而,为何谷歌的套件未能引爆市场,而后来的Nano Banana却能迅速走红?答案很简单:使用门槛与价格。
如果一个工具门槛过高,通常意味着它尚未准备好面向大众,可能是价格不菲,也可能是功能体验不完整。于是,五个月后,OpenAI反而在这个领域拔得头筹,当然这也得益于其生成效果确实足够逼真。只不过,这种领先优势可能不会持续太久,预计最多两个月。
但这一领域面临的最大挑战可能仍是监管与版权问题,视频内容的维权难度比文字更高。
结语
近期,OpenAI在核心基座模型能力侧的进展似乎陷入瓶颈,于是它开始选择看似更“简单”的应用层赛道进行发力。这不禁让人联想到两年多前的百度。
当时,百度的文心大模型本身尚未臻于完善,但其销售与市场策略却已全面铺开,急于在国内开拓B端市场。
最终的结果大家有目共睹:一个连基础模型都未能做到顶尖的团队,又如何能在复杂的企业服务领域获得成功?
在此,或许可以向OpenAI这位“老大哥”提出一点建议:应用确实是AI价值实现的最终场景,但这更多是生态合作伙伴的未来。OpenAI是否应该更加专注于其基座模型的研发与突破,而将应用创新交给更擅长此道的公司?避免过度消耗自身的精力与战略焦点。毕竟,
“Attention is all you need”的时代或许已经过去,如今技术颠覆的速度快得惊人,可能以月甚至以周为单位。