智谱GLM-5.2深度评测：1M上下文补齐短板，思考过久成最大槽点

June 20, 2026

6 月 11 日，美国商务部长致信 Anthropic CEO，以国家安全为由，要求 48 小时内暂停所有外国人对 Fable 5 与 Mythos 5 的访问。技术细节未公开，申诉窗口缺失，甚至 Anthropic 自己的外籍员工也一并受限。

6 月 13 日，智谱宣布 GLM-5.2 下周开源，MIT 协议，无任何地域限制。

两天之差，一边封锁，一边开放。这大概是 2026 年国产大模型最具戏剧性的一个发布窗口。

但故事归故事，GLM-5.2 到底好不好用是另一回事。虎嗅的实测、知乎的讨论、新浪和智谱官方的报道纷纷点出亮点与槽点，该夸的夸，该指出的问题也毫不遮掩。

反常开局：发布当天零跑分表

按惯例，旗舰模型发布首日，官方会甩出一张 benchmark 成绩表，SWE-bench、HumanEval、LiveCodeBench 一字排开，以此证明实力。

GLM-5.2 完全没有这样做。

官方这次主打四件事：Coding Plan 优先开放、真正可用的 1M 上下文、MIT 开源、华为昇腾训练。一个跑分都没放，连 DataLearner 的模型卡上都写着“评测数据待官方公布”。

来源：卡码笔记《GLM-5.2 发布：智谱这次不放跑分表，先让你用上》

这种情况存在两种解读。

往好了看，智谱想“先把开发者拉上车”，跑分让位给实际体验。毕竟被 PPT 跑分欺骗的开发者太多，先使用再信任，姿态是对的。

往另一种方向想，不放跑分往往意味着跑分不够炸裂。第三方目前能查到的仅有一条：LLM Benchmark Code V3 私有评测中，GLM-5.2(max) 综合排名全球第三。

来源：搜狐《智谱GLM-5.2全量开放Coding Plan：1M上下文 CodeV3评测全球第三》

第三不差，但也没有 GLM-5.1 当年“SWE-Bench Pro 58.4 分全球第一”那种爆炸感。智谱或许也清楚这点，干脆不主动挑起这个话头。

核心升级：补齐上一代最大短板

把 GLM-5.1 和 GLM-5.2 放在一起，变化非常清晰：

维度	GLM-5.1（3 月）	GLM-5.2（6 月）
上下文窗口	200K	真正可用的 1M
编程能力	SWE-Bench Pro 58.4%（当时的全球第一）	官方称 Coding 能力开源 SOTA，对齐 Opus 4.6 级别
长程任务	8 小时	继续保持领先
思考强度档位	单一	新增 High / Max 两档
训练硬件	未明确	华为昇腾
开源协议	MIT	MIT（无地域限制）

来源：智谱官方文档（docs.bigmodel.cn）、UniFuncs、搜狐报道

最关键的一行就是上下文窗口。

此前 GLM-5.1 与 DeepSeek V4-Pro、MiniMax M3 的横评显示，GLM-5.1 最大的硬伤就是上下文只有 200K——而 DeepSeek 和 MiniMax 都是 1M，整整差了五倍。当时的结论是：需要把整个微服务项目一次性喂给模型做全量分析时，GLM-5.1 可能容纳不下。

现在 GLM-5.2 把这个短板补上了，而且官方特意强调是“真正可用的 1M”。

这四个字很有讲究。业内人都知道，许多模型标称 1M 上下文，但实际塞到 50 万 token 以上，就开始遗忘、串味、答非所问。“标称 1M”和“可用 1M”是两码事。智谱敢在宣传里加入“真正可用”，暗示其对长上下文的检索稳定性有足够信心。对后端工程师把整个代码仓库丢进去做审查而言，是实打实的利好。

新增的 High / Max 两档思考强度同样值得一说。High 档适合日常编码，Max 档适合复杂架构和长程任务。这跟 Claude 的 thinking 模式思路一致——并非所有任务都需要最重的推理，按需分配算力。

实测评析：工程能力突出，两大槽点拖后腿

虎嗅在发布次日做了一次相当硬核的实测，三个项目，以下逐项拆解。

GLM-5.2 实测机械天文钟

图：GLM-5.2 生成的机械天文钟（来源：虎嗅）

**第一个项目：机械天文钟。**纯 SVG，单文件 HTML，925 行零外部依赖。GLM-5.2 一版就把五层同心结构、七颗齿轮、60 分钟刻度全部搭通，打开即转。最令人意外的是它的 debug 态度——月相遮罩第一版用 mask 没做好，它没有在局部反复凑手感，而是整段推倒重写，换成 terminator 双弧 path，改完拿四个边界相位打表验证：新月亮区为零、上弦右半圆、满月整圆、下弦左半圆，全部吻合。

这种“敢推翻自己重写”的行为，是区分普通模型和工程级模型的关键。很多模型写错了会反复在原地打补丁，越改越乱；GLM-5.2 掀桌子的做派，就像一个讲究代码质量的资深工程师。

**第二个项目：3D 点球大战。**采用 Three.js + Cannon.js。做动画优化时，GLM-5.2 不是凭感觉硬调参数，而是去查阅了 Ibrahim et al.(2019) 关于西甲精英门将扑救生物力学的研究论文，从中提取真实时间参数——蹬地 0.12 秒、重心横移 0.18 秒、手臂鞭打 0.25 秒。核对者把每个引用的数据源都打开检查过，一个没有瞎编。

这个细节很关键。AI 编程最大的坑之一就是“一本正经地胡编参数”。GLM-5.2 能引用真实文献、不捏造数据，说明其知识边界感比上一代明显提升。

**第三个项目：迷你 Excel。**这个项目暴露了 GLM-5.2 最大的问题。

GLM-5.2 迷你Excel实测

图：GLM-5.2 复刻迷你 Excel（来源：虎嗅）

最终成果其实不错——TS 实现 30+ 函数的公式引擎、60 步撤销重做、全套快捷键。然而过程让人抓狂：**14 分钟过去，产出还停留在“设计讨论 + 零散代码片段”，没有一行可运行代码。**测试者反复怀疑是否卡死了，需要手动输入“继续”才能推进。

这个槽点并非虎嗅一家的感受。新浪初体验文章的标题就是《GLM-5.2 初体验：像 Claude，但还没那么听话》。

来源：虎嗅《GLM5.2：给国产模型追赶 Anthropic 又提了一口气》、新浪财经初体验

换句话说，GLM-5.2 是个“想得太多的模型”。三思而后行是优点，但如果思考半天不动手，再好的架构设计也转化不成可运行代码。日常使用中，用户会频繁怀疑它是否已经卡死。

定价策略：能力升级，费用未涨

这里先纠正一个容易被带偏的认知。

网上有说法称“GLM Coding Plan 涨幅超 30%”，源自 IT 之家和 UniFuncs 的报道。但追溯时间线可以发现，IT 之家那条是早期的结构性调整新闻，UniFuncs 也明确写“2 月 12 日调整后套餐整体上涨”。也就是说，那 30% 是 GLM-5.1 时期（2 月）的历史调价，与 6 月 13 日 GLM-5.2 发布完全无关。

将 6 月 13 日当天的全部发布新闻（新浪、第一财经、财联社、搜狐）翻遍，没有任何一条提到 GLM-5.2 涨价。智谱官方的动作是“全量开放覆盖 Lite / Pro / Max / 团队版”——让所有档位都能用上 5.2，而非涨价。

来源：新浪财经、第一财经、财联社对 6 月 13 日发布的报道

GLM Coding Plan 的套餐结构目前照旧：

套餐	适用	计费方式
Lite	先评估试用	5 小时额度 + 周额度
Pro	日常开发	同上，额度更高
Max	重度/长程任务	同上，额度最高

来源：智谱 bigmodel.cn/glm-coding。不按 token 计费，按 5 小时额度 + 周额度。

因此，本次 GLM-5.2 在价格上对开发者是友好的——能力升级，套餐价格未动。这与 MiniMax M3 发布当天暗改定价规则的做法形成鲜明对比。智谱至少没在发布日带来这类意外。

不过需要说明：Coding Plan 的额度本身一直偏紧，重度用户跑长程任务可能撞到 5 小时墙。但这是 Coding Plan 产品线的老问题，并非 5.2 带来。有开发者在 linux.do 论坛评价道：

“终于等到智谱发布新模型。GLM-5.2 全量开放，关键点真正可用的 1M 上下文。对写代码、长程 agent、复杂项目重构来说，这个点太重要了。”
来源：linux.do 论坛

横向比拼：国产编程模型座次重排

结合此前多个模型的横评，现在可以更新 GLM-5.2 在国产编程模型中的位置：

维度	GLM-5.2	DeepSeek V4-Pro	MiniMax M3
上下文窗口	1M（真正可用）	1M	1M
长程任务	8 小时级，最强	常规	常规
编程跑分	官方未放（CodeV3 全球第三）	LiveCodeBench 65.9%	SWE-Bench Pro 59.0%
Agent 自主执行	强	MCPAtlas 73.6	BrowseComp 83.5
开源	MIT，无地域限制	MIT	即将开源
最大短板	思考过久、输出慢	工程完整性略弱	定价争议、生态不成熟

GLM-5.2 这一波，把上下文这个最大短板补上之后，与 DeepSeek V4-Pro、MiniMax M3 已经站在了同一起跑线，且手握两个独家优势。

一是长程任务。 8 小时持续工作能力，目前全球开源模型中仅 GLM 系列真正实现。下班前交给 GLM-5.2 一个大需求，第二天早上来收取完整的工程交付，这是 DeepSeek 和 MiniMax 都给不了的体验。

二是开源态度。 在 Anthropic Fable 5 被限制外国人访问的背景下，GLM-5.2 用 MIT 协议加无地域限制开源，时机拿捏极为精准。对企业来说，这意味着没有“某天醒来 API 被掐断”的断供风险，私有化部署毫无顾虑。

后端工程师选型：何时该上 GLM-5.2

从资深后端工程师视角，GLM-5.2 的实际价值可拆成三类场景：

推荐使用：大型 Java/Spring Boot 项目的全量代码审查。 1M 真正可用的上下文加上长程任务稳定性，意味着可以把整个微服务项目一次性交给它，让它找出所有 SQL 注入风险、空指针隐患、并发问题。这是 GLM-5.1 之前做不到，现在能发挥巨大作用的场景。

推荐使用：技术栈迁移和版本升级。 例如 Spring Boot 2.x 升 3.x、MyBatis 换 JPA、单体拆微服务。这类任务链路长、约束多，正是长程任务的用武之地。配合 Plan 模式先对齐方案，再让它自主执行，效果最佳。

谨慎使用：需要快速响应的日常编码。 GLM-5.2 那种“想半天不动手”的特性，在高频的 bug 修复、单测生成场景下会十分煎熬。此时 DeepSeek V4-Pro 的响应速度和性价比更为合适。

不建议使用：对界面审美要求高的前端开发。 虎嗅实测中机械天文钟的功能没问题，但“颜值上很有进步空间”——这是委婉说法。前端 UI 这种审美密集型任务，目前仍是 Claude 系列更稳。

常见问题解答

Q：GLM-5.2 现在能用吗？如何接入？

Coding Plan 用户已全量可用，直接在 Claude Code 里切换模型即可。API 下周上线，模型权重下周开源（HuggingFace + GitHub，支持 vLLM 等主流框架）。

Q：GLM-5.2 和 GLM-5.1 怎么选？

5.1 还未下线，但建议：只要任务涉及大代码库或长链路，直接上 5.2，1M 上下文的差距是质变。5.1 唯一的优势是更便宜、响应更快，适合轻量任务。

Q：“思考太久不出代码”的问题能否解决？

将思考强度从 Max 调到 High 能明显缓解。Max 档留给真正复杂的架构任务，日常编码用 High 档，响应速度会好很多。

Q：华为昇腾训练意味着什么？

意味着 GLM-5.2 的训练没有依赖英伟达算力，全链路国产化。对 B 端和政企客户而言，这是加分项——不用再担心算力制裁引发的模型断供。

总结

GLM-5.2 是一次“补短板+提能力”的扎实迭代。

1M 真正可用的上下文补上了 GLM-5.1 最大的硬伤；编程能力和长程任务的稳定性继续巩固其国产 Coding 模型第一梯队的位置；MIT 开源、无地域限制的时机选择，在 Fable 5 被封锁的背景下，叙事张力拉满。

但也并非没有短板。发布当天不放跑分、复杂任务“思考过久不出代码”、界面审美欠一截——这几个槽点，每一个都切实影响开发者日常体验。好在本次定价没有变动，能力升级无需额外费用，这一点比 MiniMax M3 来得厚道。

综合判断：如果你是后端工程师，需要在 Claude Code 里跑大项目、做长链路任务，GLM-5.2 目前是国产模型中最值得优先选择的一个。 1M 上下文配合 8 小时长程任务这两个能力组合，没有第二个国产模型能同时提供。

但日常高频轻量编码，建议 DeepSeek V4-Pro 与 GLM-5.2 搭配使用——一个追求响应速度和经济性，一个主打稳定和长链路。

至于那些宏大的开源叙事，听听便好。真正决定是否用 GLM-5.2 的，永远是它帮你省下了多少时间，而不是头顶的光环。

参考来源：
• 虎嗅：GLM5.2 给国产模型追赶 Anthropic 又提了一口气
• 新浪财经：智谱 GLM-5.2 将面向 GLM Coding Plan 全量用户开放
• IT之家：GLM-5.2 将面向 GLM Coding Plan 全量用户开放
• 卡码笔记：GLM-5.2 发布，智谱这次不放跑分表
• 第一财经：智谱 GLM-5.2 将面向 GLM Coding Plan 全量用户开放
• 搜狐：智谱GLM-5.2全量开放，CodeV3评测全球第三
• 知乎：如何评价智谱6月13日发布的GLM5.2模型
• DataLearner：GLM 5.2 模型卡
• 新浪财经：GLM-5.2 初体验，像Claude但还没那么听话
• 智谱 GLM Coding Plan 官方