GPT-5.6未发先火:150万token、三倍更便宜,模型竞赛已转向成本与长任务实战

OpenAI Codex 的后台日志里,忽然冒出了一串从未正式公开过的模型代号。社区立刻将它与 150 万 token 的超大上下文窗口、比 Claude Fable 5 便宜三倍的定价传闻绑定。虽然 OpenAI 至今没有出面证实,但这场讨论本身已经透露出一个强烈的信号:大模型竞争的标尺,正从“谁在排行榜上分数更高”快速滑向“谁能用更低的成本完成复杂的真实任务”。
1.5M
传闻中的上下文窗口(token)
3×
比 Claude Fable 5 更便宜的传闻
6月下旬
预计的发布窗口
一条后台日志,怎么就变成了行业风向标
开发者在 Codex 后台日志里捕捉到了 iris-alpha 的踪迹。它没有任何官方解释,却瞬间点燃了社区的想象:150 万 token 上下文、更激进的 API 定价,甚至更强的代理编程能力,都被一一对应到这个代号身上。这些参数目前都还停留在猜测层面,OpenAI 既没有发布 GPT-5.6,也没有确认任何一项性能指标。
但这次“泄露”之所以能被放大成行业事件,是因为它恰好卡在了一个竞争叙事极度成熟的节骨眼上。Anthropic 已经用 Claude Fable 5 明确把“长任务代理+企业工作流”锁定为下一个主战场;谷歌的 Gemini 系列则借助自研 TPU 和云基础设施,同样在悄悄构筑长上下文的壁垒。OpenAI 若要在同一时间窗口内作出回应,必然要在上下文长度、代理深度和价格上同时出牌——而这位“iris-alpha”所暗示的,正是这三张最敏感的牌面。
150 万 token:装得下整个仓库,但守得住注意力吗?
从 GPT-5.5 的 100 万 token 到传闻中的 150 万,数字上只是半倍的扩展,可它带来的工作方式变化却是结构性的。在短上下文时代,工程师必须把代码库切成一堆小包,按相关性逐段喂入。而 150 万 token 意味着整仓的依赖关系、接口协议、测试输出、需求文档可以一次性塞给模型。
直接受益的几类典型任务:
- 代码库级理解:一次性送入仓库结构、依赖图和测试信息,大幅减少人工剪裁
- 长文档处理:合同、论文、会议纪要包不再需要强行分块
- 多步代理任务:多轮决策和中间结果被保留,无需反复压缩历史
- 企业知识检索:对 RAG 管道的强依赖会松动,但检索本身并不会退出舞台
不过,上下文拉长的同时,成本、延迟和指令稳定性上的挑战也成倍放大。真正该追问的不是“能塞进去多少 token”,而是“模型在十几万字的混杂输入里,能不能始终如一地记住约束条件、不遗漏关键事实,并稳定输出正确的工具调用”。容量增加只是门票,可靠性才是上桌的资格。
价格战新刻度:从“每百万 token”到“每项任务总成本”
这次后台日志中最扎眼的数字是“便宜三倍”。虽然没有官方定价,但方向已经被行业共识托举出来了。
长上下文与代理编程会剧烈放大 token 消耗。一次简单的问答不过用掉几千 token,但代码库分析加上自动修复、测试循环和报告生成,很容易冲到几十万甚至上百万 token。企业选模型时,算账的粒度正在迁移:从“每百万 token 单价多少”变成“完成一项复杂任务总共花了多少钱”。一个单价更高但一次就能成功的模型,往往比便宜却需要反复重试、来回纠错的模型更划算。
对手如何把 OpenAI 推到不得不回应的一步
Claude Fable 5 已经通过 API、Claude Platform、AWS、Google Cloud 和 Microsoft Foundry 全面铺开,定价锚定在每百万输入 token 10 美元、输出 50 美元。这个价格本身就是一把量尺,目标不在聊天订单,而在企业代码库和长期工作流。
谷歌也在同一条路上备跑。Gemini 系列背靠自研 TPU 和云原生优势,天生适合大规模长上下文部署。一旦将计算资源、Google Workspace 与开发者工具串成一体,竞争就不再是单个模型的比武,而是平台生态的对抗。
面对这种形势,OpenAI 的应对路线已经相当清晰:更强代际的模型、更低的使用成本、更充分的计算供应。有消息称,OpenAI 正在接洽从 SB Energy 租赁位于俄亥俄州的 10GW 数据中心园区。虽然这与具体模型发布没有直接的一一对应,但它折射出一个更底层的现实:前沿模型的竞争早已不限于算法和数据,它同时是电力、芯片、园区融资和长期租约的博弈。
三家关键玩家的当前站位
- OpenAI:100 万 token 上下文已落地,API 生态最成熟,价格有下调空间
- Anthropic:Claude Fable 5 直接聚焦长任务代理,定价先手出牌
- 谷歌:自研 TPU + Workspace 生态,基础设施优势明显
开发者必须重新训练的使用方式
如果 150 万 token 窗口真的落地,开发者的工作习惯会被重塑,但这和“上下文大了就可以不动脑子”完全不是一回事。
过去使用 AI 辅助编码时,大家习惯把问题拆碎再喂进去。大窗口打开的是另一种可能:直接把更多仓库结构、需求描述、测试输出和设计约束一次性交给模型,让它在更完整的问题空间里做规划。但这对任务的组织和约束设计反而提出了更高的要求。
很快会成为标配的操作方式:
- 前置约束声明:把目标、非目标、验收标准写明白
- 关键文件就近放置:核心代码、日志、错误输出放在上下文中最显眼的位置
- 产出物固化:要求模型输出具体的计划、补丁和测试结果,而不是口头方案
- 高风险人工确认点:凡是涉及生产数据的操作,仍然需要人工签字
- 上下文中的秘密零容忍:密钥、个人数据和生产权限绝不塞进长上下文
好的工程师会越来越像上下文的“管理者”,负责给代理划定边界、分配权限、设置工具和验收节点,而不仅仅是写代码本身。
更根本的判断
如果 GPT-5.6 真的在 6 月下旬发布,最重要的变化并不是那个 150 万 token 的数字。更低的定价、更强的代理编程能力,以及 Anthropic 已经铺设好的企业工作流路径,这三者的叠加,才是改写使用成本结构的关键。同一套技术路线上,谁先把“上下文容量 + 代理能力 + 价格”三项一起压到企业可接受的区间,谁就能握住下一个阶段的话语权。