GPT-5.6未发先火：150万token、三倍更便宜，模型竞赛已转向成本与长任务实战

June 15, 2026

OpenAI Codex 的后台日志里，忽然冒出了一串从未正式公开过的模型代号。社区立刻将它与 150 万 token 的超大上下文窗口、比 Claude Fable 5 便宜三倍的定价传闻绑定。虽然 OpenAI 至今没有出面证实，但这场讨论本身已经透露出一个强烈的信号：大模型竞争的标尺，正从“谁在排行榜上分数更高”快速滑向“谁能用更低的成本完成复杂的真实任务”。

1.5M

传闻中的上下文窗口（token）

3×

比 Claude Fable 5 更便宜的传闻

6月下旬

预计的发布窗口

一条后台日志，怎么就变成了行业风向标

开发者在 Codex 后台日志里捕捉到了 iris-alpha 的踪迹。它没有任何官方解释，却瞬间点燃了社区的想象：150 万 token 上下文、更激进的 API 定价，甚至更强的代理编程能力，都被一一对应到这个代号身上。这些参数目前都还停留在猜测层面，OpenAI 既没有发布 GPT-5.6，也没有确认任何一项性能指标。

但这次“泄露”之所以能被放大成行业事件，是因为它恰好卡在了一个竞争叙事极度成熟的节骨眼上。Anthropic 已经用 Claude Fable 5 明确把“长任务代理+企业工作流”锁定为下一个主战场；谷歌的 Gemini 系列则借助自研 TPU 和云基础设施，同样在悄悄构筑长上下文的壁垒。OpenAI 若要在同一时间窗口内作出回应，必然要在上下文长度、代理深度和价格上同时出牌——而这位“iris-alpha”所暗示的，正是这三张最敏感的牌面。

150 万 token：装得下整个仓库，但守得住注意力吗？

从 GPT-5.5 的 100 万 token 到传闻中的 150 万，数字上只是半倍的扩展，可它带来的工作方式变化却是结构性的。在短上下文时代，工程师必须把代码库切成一堆小包，按相关性逐段喂入。而 150 万 token 意味着整仓的依赖关系、接口协议、测试输出、需求文档可以一次性塞给模型。

直接受益的几类典型任务：

代码库级理解：一次性送入仓库结构、依赖图和测试信息，大幅减少人工剪裁
长文档处理：合同、论文、会议纪要包不再需要强行分块
多步代理任务：多轮决策和中间结果被保留，无需反复压缩历史
企业知识检索：对 RAG 管道的强依赖会松动，但检索本身并不会退出舞台

不过，上下文拉长的同时，成本、延迟和指令稳定性上的挑战也成倍放大。真正该追问的不是“能塞进去多少 token”，而是“模型在十几万字的混杂输入里，能不能始终如一地记住约束条件、不遗漏关键事实，并稳定输出正确的工具调用”。容量增加只是门票，可靠性才是上桌的资格。

价格战新刻度：从“每百万 token”到“每项任务总成本”

这次后台日志中最扎眼的数字是“便宜三倍”。虽然没有官方定价，但方向已经被行业共识托举出来了。

长上下文与代理编程会剧烈放大 token 消耗。一次简单的问答不过用掉几千 token，但代码库分析加上自动修复、测试循环和报告生成，很容易冲到几十万甚至上百万 token。企业选模型时，算账的粒度正在迁移：从“每百万 token 单价多少”变成“完成一项复杂任务总共花了多少钱”。一个单价更高但一次就能成功的模型，往往比便宜却需要反复重试、来回纠错的模型更划算。

对手如何把 OpenAI 推到不得不回应的一步

Claude Fable 5 已经通过 API、Claude Platform、AWS、Google Cloud 和 Microsoft Foundry 全面铺开，定价锚定在每百万输入 token 10 美元、输出 50 美元。这个价格本身就是一把量尺，目标不在聊天订单，而在企业代码库和长期工作流。

谷歌也在同一条路上备跑。Gemini 系列背靠自研 TPU 和云原生优势，天生适合大规模长上下文部署。一旦将计算资源、Google Workspace 与开发者工具串成一体，竞争就不再是单个模型的比武，而是平台生态的对抗。

面对这种形势，OpenAI 的应对路线已经相当清晰：更强代际的模型、更低的使用成本、更充分的计算供应。有消息称，OpenAI 正在接洽从 SB Energy 租赁位于俄亥俄州的 10GW 数据中心园区。虽然这与具体模型发布没有直接的一一对应，但它折射出一个更底层的现实：前沿模型的竞争早已不限于算法和数据，它同时是电力、芯片、园区融资和长期租约的博弈。

三家关键玩家的当前站位

OpenAI：100 万 token 上下文已落地，API 生态最成熟，价格有下调空间
Anthropic：Claude Fable 5 直接聚焦长任务代理，定价先手出牌
谷歌：自研 TPU + Workspace 生态，基础设施优势明显

开发者必须重新训练的使用方式

如果 150 万 token 窗口真的落地，开发者的工作习惯会被重塑，但这和“上下文大了就可以不动脑子”完全不是一回事。

过去使用 AI 辅助编码时，大家习惯把问题拆碎再喂进去。大窗口打开的是另一种可能：直接把更多仓库结构、需求描述、测试输出和设计约束一次性交给模型，让它在更完整的问题空间里做规划。但这对任务的组织和约束设计反而提出了更高的要求。

很快会成为标配的操作方式：

前置约束声明：把目标、非目标、验收标准写明白
关键文件就近放置：核心代码、日志、错误输出放在上下文中最显眼的位置
产出物固化：要求模型输出具体的计划、补丁和测试结果，而不是口头方案
高风险人工确认点：凡是涉及生产数据的操作，仍然需要人工签字
上下文中的秘密零容忍：密钥、个人数据和生产权限绝不塞进长上下文

好的工程师会越来越像上下文的“管理者”，负责给代理划定边界、分配权限、设置工具和验收节点，而不仅仅是写代码本身。

更根本的判断

如果 GPT-5.6 真的在 6 月下旬发布，最重要的变化并不是那个 150 万 token 的数字。更低的定价、更强的代理编程能力，以及 Anthropic 已经铺设好的企业工作流路径，这三者的叠加，才是改写使用成本结构的关键。同一套技术路线上，谁先把“上下文容量 + 代理能力 + 价格”三项一起压到企业可接受的区间，谁就能握住下一个阶段的话语权。