智谱GLM-5.2深度评测:1M上下文补齐短板,思考过久成最大槽点
6 月 11 日,美国商务部长致信 Anthropic CEO,以国家安全为由,要求 48 小时内暂停所有外国人对 Fable 5 与 Mythos 5 的访问。技术细节未公开,申诉窗口缺失,甚至 Anthropic 自己的外籍员工也一并受限。
6 月 13 日,智谱宣布 GLM-5.2 下周开源,MIT 协议,无任何地域限制。
两天之差,一边封锁,一边开放。这大概是 2026 年国产大模型最具戏剧性的一个发布窗口。
但故事归故事,GLM-5.2 到底好不好用是另一回事。虎嗅的实测、知乎的讨论、新浪和智谱官方的报道纷纷点出亮点与槽点,该夸的夸,该指出的问题也毫不遮掩。
反常开局:发布当天零跑分表
按惯例,旗舰模型发布首日,官方会甩出一张 benchmark 成绩表,SWE-bench、HumanEval、LiveCodeBench 一字排开,以此证明实力。
GLM-5.2 完全没有这样做。
官方这次主打四件事:Coding Plan 优先开放、真正可用的 1M 上下文、MIT 开源、华为昇腾训练。一个跑分都没放,连 DataLearner 的模型卡上都写着“评测数据待官方公布”。
来源:卡码笔记《GLM-5.2 发布:智谱这次不放跑分表,先让你用上》
这种情况存在两种解读。
往好了看,智谱想“先把开发者拉上车”,跑分让位给实际体验。毕竟被 PPT 跑分欺骗的开发者太多,先使用再信任,姿态是对的。
往另一种方向想,不放跑分往往意味着跑分不够炸裂。第三方目前能查到的仅有一条:LLM Benchmark Code V3 私有评测中,GLM-5.2(max) 综合排名全球第三。
来源:搜狐《智谱GLM-5.2全量开放Coding Plan:1M上下文 CodeV3评测全球第三》
第三不差,但也没有 GLM-5.1 当年“SWE-Bench Pro 58.4 分全球第一”那种爆炸感。智谱或许也清楚这点,干脆不主动挑起这个话头。
核心升级:补齐上一代最大短板
把 GLM-5.1 和 GLM-5.2 放在一起,变化非常清晰:
| 维度 | GLM-5.1(3 月) | GLM-5.2(6 月) |
|---|---|---|
| 上下文窗口 | 200K | 真正可用的 1M |
| 编程能力 | SWE-Bench Pro 58.4%(当时的全球第一) | 官方称 Coding 能力开源 SOTA,对齐 Opus 4.6 级别 |
| 长程任务 | 8 小时 | 继续保持领先 |
| 思考强度档位 | 单一 | 新增 High / Max 两档 |
| 训练硬件 | 未明确 | 华为昇腾 |
| 开源协议 | MIT | MIT(无地域限制) |
来源:智谱官方文档(docs.bigmodel.cn)、UniFuncs、搜狐报道
最关键的一行就是上下文窗口。
此前 GLM-5.1 与 DeepSeek V4-Pro、MiniMax M3 的横评显示,GLM-5.1 最大的硬伤就是上下文只有 200K——而 DeepSeek 和 MiniMax 都是 1M,整整差了五倍。当时的结论是:需要把整个微服务项目一次性喂给模型做全量分析时,GLM-5.1 可能容纳不下。
现在 GLM-5.2 把这个短板补上了,而且官方特意强调是“真正可用的 1M”。
这四个字很有讲究。业内人都知道,许多模型标称 1M 上下文,但实际塞到 50 万 token 以上,就开始遗忘、串味、答非所问。“标称 1M”和“可用 1M”是两码事。智谱敢在宣传里加入“真正可用”,暗示其对长上下文的检索稳定性有足够信心。对后端工程师把整个代码仓库丢进去做审查而言,是实打实的利好。
新增的 High / Max 两档思考强度同样值得一说。High 档适合日常编码,Max 档适合复杂架构和长程任务。这跟 Claude 的 thinking 模式思路一致——并非所有任务都需要最重的推理,按需分配算力。
实测评析:工程能力突出,两大槽点拖后腿
虎嗅在发布次日做了一次相当硬核的实测,三个项目,以下逐项拆解。
GLM-5.2 实测机械天文钟
图:GLM-5.2 生成的机械天文钟(来源:虎嗅)
**第一个项目:机械天文钟。**纯 SVG,单文件 HTML,925 行零外部依赖。GLM-5.2 一版就把五层同心结构、七颗齿轮、60 分钟刻度全部搭通,打开即转。最令人意外的是它的 debug 态度——月相遮罩第一版用 mask 没做好,它没有在局部反复凑手感,而是整段推倒重写,换成 terminator 双弧 path,改完拿四个边界相位打表验证:新月亮区为零、上弦右半圆、满月整圆、下弦左半圆,全部吻合。
这种“敢推翻自己重写”的行为,是区分普通模型和工程级模型的关键。很多模型写错了会反复在原地打补丁,越改越乱;GLM-5.2 掀桌子的做派,就像一个讲究代码质量的资深工程师。
**第二个项目:3D 点球大战。**采用 Three.js + Cannon.js。做动画优化时,GLM-5.2 不是凭感觉硬调参数,而是去查阅了 Ibrahim et al.(2019) 关于西甲精英门将扑救生物力学的研究论文,从中提取真实时间参数——蹬地 0.12 秒、重心横移 0.18 秒、手臂鞭打 0.25 秒。核对者把每个引用的数据源都打开检查过,一个没有瞎编。
这个细节很关键。AI 编程最大的坑之一就是“一本正经地胡编参数”。GLM-5.2 能引用真实文献、不捏造数据,说明其知识边界感比上一代明显提升。
**第三个项目:迷你 Excel。**这个项目暴露了 GLM-5.2 最大的问题。
GLM-5.2 迷你Excel实测
图:GLM-5.2 复刻迷你 Excel(来源:虎嗅)
最终成果其实不错——TS 实现 30+ 函数的公式引擎、60 步撤销重做、全套快捷键。然而过程让人抓狂:**14 分钟过去,产出还停留在“设计讨论 + 零散代码片段”,没有一行可运行代码。**测试者反复怀疑是否卡死了,需要手动输入“继续”才能推进。
这个槽点并非虎嗅一家的感受。新浪初体验文章的标题就是《GLM-5.2 初体验:像 Claude,但还没那么听话》。
来源:虎嗅《GLM5.2:给国产模型追赶 Anthropic 又提了一口气》、新浪财经初体验
换句话说,GLM-5.2 是个“想得太多的模型”。三思而后行是优点,但如果思考半天不动手,再好的架构设计也转化不成可运行代码。日常使用中,用户会频繁怀疑它是否已经卡死。
定价策略:能力升级,费用未涨
这里先纠正一个容易被带偏的认知。
网上有说法称“GLM Coding Plan 涨幅超 30%”,源自 IT 之家和 UniFuncs 的报道。但追溯时间线可以发现,IT 之家那条是早期的结构性调整新闻,UniFuncs 也明确写“2 月 12 日调整后套餐整体上涨”。也就是说,那 30% 是 GLM-5.1 时期(2 月)的历史调价,与 6 月 13 日 GLM-5.2 发布完全无关。
将 6 月 13 日当天的全部发布新闻(新浪、第一财经、财联社、搜狐)翻遍,没有任何一条提到 GLM-5.2 涨价。智谱官方的动作是“全量开放覆盖 Lite / Pro / Max / 团队版”——让所有档位都能用上 5.2,而非涨价。
来源:新浪财经、第一财经、财联社对 6 月 13 日发布的报道
GLM Coding Plan 的套餐结构目前照旧:
| 套餐 | 适用 | 计费方式 |
|---|---|---|
| Lite | 先评估试用 | 5 小时额度 + 周额度 |
| Pro | 日常开发 | 同上,额度更高 |
| Max | 重度/长程任务 | 同上,额度最高 |
来源:智谱 bigmodel.cn/glm-coding。不按 token 计费,按 5 小时额度 + 周额度。
因此,本次 GLM-5.2 在价格上对开发者是友好的——能力升级,套餐价格未动。这与 MiniMax M3 发布当天暗改定价规则的做法形成鲜明对比。智谱至少没在发布日带来这类意外。
不过需要说明:Coding Plan 的额度本身一直偏紧,重度用户跑长程任务可能撞到 5 小时墙。但这是 Coding Plan 产品线的老问题,并非 5.2 带来。有开发者在 linux.do 论坛评价道:
“终于等到智谱发布新模型。GLM-5.2 全量开放,关键点真正可用的 1M 上下文。对写代码、长程 agent、复杂项目重构来说,这个点太重要了。”
来源:linux.do 论坛
横向比拼:国产编程模型座次重排
结合此前多个模型的横评,现在可以更新 GLM-5.2 在国产编程模型中的位置:
| 维度 | GLM-5.2 | DeepSeek V4-Pro | MiniMax M3 |
|---|---|---|---|
| 上下文窗口 | 1M(真正可用) | 1M | 1M |
| 长程任务 | 8 小时级,最强 | 常规 | 常规 |
| 编程跑分 | 官方未放(CodeV3 全球第三) | LiveCodeBench 65.9% | SWE-Bench Pro 59.0% |
| Agent 自主执行 | 强 | MCPAtlas 73.6 | BrowseComp 83.5 |
| 开源 | MIT,无地域限制 | MIT | 即将开源 |
| 最大短板 | 思考过久、输出慢 | 工程完整性略弱 | 定价争议、生态不成熟 |
GLM-5.2 这一波,把上下文这个最大短板补上之后,与 DeepSeek V4-Pro、MiniMax M3 已经站在了同一起跑线,且手握两个独家优势。
一是长程任务。 8 小时持续工作能力,目前全球开源模型中仅 GLM 系列真正实现。下班前交给 GLM-5.2 一个大需求,第二天早上来收取完整的工程交付,这是 DeepSeek 和 MiniMax 都给不了的体验。
二是开源态度。 在 Anthropic Fable 5 被限制外国人访问的背景下,GLM-5.2 用 MIT 协议加无地域限制开源,时机拿捏极为精准。对企业来说,这意味着没有“某天醒来 API 被掐断”的断供风险,私有化部署毫无顾虑。
后端工程师选型:何时该上 GLM-5.2
从资深后端工程师视角,GLM-5.2 的实际价值可拆成三类场景:
推荐使用:大型 Java/Spring Boot 项目的全量代码审查。 1M 真正可用的上下文加上长程任务稳定性,意味着可以把整个微服务项目一次性交给它,让它找出所有 SQL 注入风险、空指针隐患、并发问题。这是 GLM-5.1 之前做不到,现在能发挥巨大作用的场景。
推荐使用:技术栈迁移和版本升级。 例如 Spring Boot 2.x 升 3.x、MyBatis 换 JPA、单体拆微服务。这类任务链路长、约束多,正是长程任务的用武之地。配合 Plan 模式先对齐方案,再让它自主执行,效果最佳。
谨慎使用:需要快速响应的日常编码。 GLM-5.2 那种“想半天不动手”的特性,在高频的 bug 修复、单测生成场景下会十分煎熬。此时 DeepSeek V4-Pro 的响应速度和性价比更为合适。
不建议使用:对界面审美要求高的前端开发。 虎嗅实测中机械天文钟的功能没问题,但“颜值上很有进步空间”——这是委婉说法。前端 UI 这种审美密集型任务,目前仍是 Claude 系列更稳。
常见问题解答
Q:GLM-5.2 现在能用吗?如何接入?
Coding Plan 用户已全量可用,直接在 Claude Code 里切换模型即可。API 下周上线,模型权重下周开源(HuggingFace + GitHub,支持 vLLM 等主流框架)。
Q:GLM-5.2 和 GLM-5.1 怎么选?
5.1 还未下线,但建议:只要任务涉及大代码库或长链路,直接上 5.2,1M 上下文的差距是质变。5.1 唯一的优势是更便宜、响应更快,适合轻量任务。
Q:“思考太久不出代码”的问题能否解决?
将思考强度从 Max 调到 High 能明显缓解。Max 档留给真正复杂的架构任务,日常编码用 High 档,响应速度会好很多。
Q:华为昇腾训练意味着什么?
意味着 GLM-5.2 的训练没有依赖英伟达算力,全链路国产化。对 B 端和政企客户而言,这是加分项——不用再担心算力制裁引发的模型断供。
总结
GLM-5.2 是一次“补短板+提能力”的扎实迭代。
1M 真正可用的上下文补上了 GLM-5.1 最大的硬伤;编程能力和长程任务的稳定性继续巩固其国产 Coding 模型第一梯队的位置;MIT 开源、无地域限制的时机选择,在 Fable 5 被封锁的背景下,叙事张力拉满。
但也并非没有短板。发布当天不放跑分、复杂任务“思考过久不出代码”、界面审美欠一截——这几个槽点,每一个都切实影响开发者日常体验。好在本次定价没有变动,能力升级无需额外费用,这一点比 MiniMax M3 来得厚道。
综合判断:如果你是后端工程师,需要在 Claude Code 里跑大项目、做长链路任务,GLM-5.2 目前是国产模型中最值得优先选择的一个。 1M 上下文配合 8 小时长程任务这两个能力组合,没有第二个国产模型能同时提供。
但日常高频轻量编码,建议 DeepSeek V4-Pro 与 GLM-5.2 搭配使用——一个追求响应速度和经济性,一个主打稳定和长链路。
至于那些宏大的开源叙事,听听便好。真正决定是否用 GLM-5.2 的,永远是它帮你省下了多少时间,而不是头顶的光环。
参考来源:
- • 虎嗅:GLM5.2 给国产模型追赶 Anthropic 又提了一口气
- • 新浪财经:智谱 GLM-5.2 将面向 GLM Coding Plan 全量用户开放
- • IT之家:GLM-5.2 将面向 GLM Coding Plan 全量用户开放
- • 卡码笔记:GLM-5.2 发布,智谱这次不放跑分表
- • 第一财经:智谱 GLM-5.2 将面向 GLM Coding Plan 全量用户开放
- • 搜狐:智谱GLM-5.2全量开放,CodeV3评测全球第三
- • 知乎:如何评价智谱6月13日发布的GLM5.2模型
- • DataLearner:GLM 5.2 模型卡
- • 新浪财经:GLM-5.2 初体验,像Claude但还没那么听话
- • 智谱 GLM Coding Plan 官方