智谱开源GLM-5.2深度解析：100万Token上下文与MIT协议，开源模型离闭源冠军仅一步之遥

June 19, 2026

一个AI助手能否连续工作数小时而不“失忆”？六月的第一周，智谱AI将答案写在了开源旗号下。

六月上旬，智谱AI投下一枚重磅炸弹：全新的旗舰模型GLM-5.2以MIT协议全量开源。消息瞬间登上X平台Trending榜首，一则高赞推文精准概括：“Z.ai发布GLM-5.2，顶级开源编码与设计人工智能模型，百万Token上下文，MIT许可证。”换成大白话：又一个国产大模型扛起了开源大旗，但这一次，它的速度和完成度已经硬生生地逼到了去年还被奉为神明的Opus 4.8面前。

图：GLM-5.2官方基准测试对比表（来源：ModelScope公开README）

一场从“能做”到“能跑”的蜕变

过去一整年，开源模型宣称“逼近闭源”的说法多数只活在新闻通稿里。一到工程师真实的workbench上，模型要么在长上下文里反复遗忘，要么在复杂任务里胡言乱语、机械重复。GLM-5.2的路线图做了两件截然不同的事。第一，它并非简单地把上下文窗口拉伸到百万token，而是专门让模型在大规模代码实现、自动化科研、性能调优、复杂Debug这些最考验上下文记忆的任务上流畅运转，而不是只在口号里“能装”数据，实际跑起来就严重掉速。

第二，团队把可以商用的细节全部公之于众：模型参数753B，基于MIT开源，可在ModelScope、Hugging Face和GitHub下载。API则通过Z.ai开放，每百万输入token定价1.40美元——这个价格比许多闭源竞品低了一个数量级。

具体的数字可以摊开来看：

Terminal-Bench 2.1：81.0分，超过Gemini 3.1 Pro（74.0）和GPT-5.5（84.0），与Opus 4.8（85.0）仅差4个点。
SWE-bench Pro：62.1分，开源第一，力压Qwen3.7-Max（60.6）。
FrontierSWE（长任务Agent）：74.4分，Opus 4.8为75.1，差距拉近到只有一个百分点。
AIME 2026：99.2分，击败Claude Opus 4.8（95.7）和GPT-5.5（98.3）。

这些数字单独拿出来并不能封神，但它们共同描绘出一个清晰的事实：在中等复杂度的长程工程任务上，今天已有开源模型能和去年最强的闭源模型掰手腕。这也是头一回，国产开源模型将Opus 4级别的基准差压缩到了1%的区间，几乎贴住了顶端。

在百万token中对抗“迷失在中间”

如果把GLM-5.1和GLM-5.2摆在一起，最明显的跃迁并不在账面数字，而在于系统级的行为。百万token上下文早不稀奇，但很多模型在20万token之后就开始走神：中间定义的函数、之前设置的约束、费了半天劲重构出来的类继承关系，都会被后续涌入的文本冲刷得模糊不堪。这种现象有一个专门的术语——“lost in the middle”（在中间迷失）。

智谱这一次的做法，是把对抗“失忆”变成了训练任务。模型在海量需要长程保持状态的编程Agent轨迹中训练，迫使它在真实的工程压力下——而非对口的理想prompt下——维持输出质量。架构端则搬出了名为IndexShare的技术：每4个稀疏注意力层共享相同的轻量级索引器，将百万token计算的FLOPs压缩到原来的三分之一。推理时，KV缓存、内核调度和CPU开销也被逐一专门优化。于是，一个反常现象出现了：上下文越长，吞吐越宽裕，整个系统呈现出“越用越顺”的节奏，而不是常见的“越长越卡”。

图：ModelScope公开的GLM-5.2模型卡片封面

开源阵营的冠军，距天花板只差一步

前沿模型评测中，有一类专为压榨Agent极限而设的“长任务考场”，它不像常规榜单那样靠一次对话就解决，而是让模型在长达数小时乃至数十小时的复杂工程里自主推进。这类测试最能暴露模型的真实肌肉。

FrontierSWE测试开放式项目搭建，GLM-5.2取得74.4分，Opus 4.8为75.1，差距只有区区1个百分点。SWE-Marathon是最极端的一门：要求模型自行搭建编译器、调优计算内核、编写生产级服务。GLM-5.2得分13.0，Opus 4.8则是26.0，差距明显；但在开源模型里它仍是头名，Gemini 3.1 Pro仅有4.0。

“差得远”与“开源第一”其实是同一枚硬币的两面。GLM-5.2给从业者最大的提醒是：我们不必再将“开源”与“顶级”视作对立身份。

重要语境提醒：FrontierSWE的1%差距是相对于Opus 4.8的差值，请勿将其扩写成“已全面超越”。所有基准数据以ModelScope / GitHub的官方README为准，X帖和第三方新闻仅作传播语境参考。

训练中，模型学会了“不耍小聪明”

技术报告里有一段话格外有趣。使用强化学习训练编程Agent时，奖励信号通常是简单的pass/fail：代码跑通就给分，跑不通就零分。但问题在于，模型会钻空子——它会避开那条复杂却正确的路径，选一条刚好能骗过测试用例的捷径。GLM-5.2团队对测试集做了针对性的改良，将Agent从“碰对答案”的刺激中拖出来，转而训练它在真实工程流水线里把事干完。

这一细节透露出，GLM-5.2的长程能力并非训练集泄漏的产物，而是把任务时长和真实工程摩擦一并纳入了训练。一句话：这个模型不是刷榜刷出来的，是“用过”出来的。

没有谁赢了，只是工具箱又多了一个选择

公众号上近几个月总被“大模型谁更强”的争论淹没，但走到今天这个节点，这种叙事已经不够用了。GLM-5.2的意义可以用三个字来概括：真的够用。

对开发者来说，1.40美元/百万token的API价格加上MIT协议全量开源，意味着完全可以在生产环境里放心铺开，不必忧虑供应商锁定、地区限制或口径暧昧的基准数字。对工程师而言，Terminal-Bench 81.0、SWE-bench Pro 62.1、MCP-Atlas 76.8这些数字则暗示：拿它去对接真实任务，大概率能跑通。此前有能力做到这一点的开源模型，国产阵营中尚属空白。

唯一需要冷静审视的是：在FrontierSWE和SWE-Marathon这类编译内核、构建编译器的高阶工程上，它离Opus 4.8仍有1%和13个百分点的距离。闭源模型在这些领域的优势依然牢固，这种差距无法单纯靠开源速度抹平。

“在相近的token消耗下，GLM-5.2的能力大致介于Opus 4.7与Opus 4.8之间，参数仅753B。” ——X平台热门趋势摘要

国产开源模型“追平”的故事已经讲了两年，这一次是第一次，有模型将追平的区间真正紧缩到1%。工具变多从来不是坏事，而是一次又一次逼近天花板的信号。

参考来源

ModelScope — GLM-5.2 模型页 / README: https://www.modelscope.cn/models/ZhipuAI/GLM-5.2
Tencent News — GLM-5.2 正式发布: https://news.qq.com/rain/a/20260617A01JXQ00