GLM-5.2编码能力惊艳业界，开源突袭令闭源阵营措手不及

June 22, 2026

6月21日，X平台上的一条简短推文，瞬间让整个AI圈屏住了呼吸。

那个人说出了所有人心里的话

Guillermo Rauch——Vercel创始人兼CEO、Next.js之父，JavaScript生态中的重量级人物——在X上留下了这样一句评价：“Genuinely impressed, almost shocked, at how good GLM-5.2 by @zai_org is at coding. This changes things.” 他被GLM-5.2的编程实力所震撼，甚至用了“近乎惊愕”这样的字眼，并断言这将改写格局。

“Almost shocked”这几个词，绝非一位硅谷CEO的客套褒奖。Rauch日复一日地使用各类模型——从GPT到Claude，再到开源模型——他对编程能力的评判并非来自媒体的隔靴搔痒，而是基于每天撰写Next.js和基础设施代码的亲身体感。一个整天与代码为伍的人说出“被惊到了”，这不是营销修辞，而是内行人的认可。

44% 背后的距离

就在同一天，Datacurve更新了DeepSWE排行榜。GLM-5.2以pass@1 44%的成绩登顶开源模型之巅，大幅领先Kimi K2.7 Code的27%，优势高达17个百分点。单看数字可能还不够直观，但结合背景来看：44%的pass@1表现，已经逼近甚至追平了多个闭源模型的水准。

DeepSWE是一项面向长周期编码任务的基准测试，用于评估模型在真实软件工程任务中的端到端能力——它要求模型理解项目结构、定位问题、修改代码文件、并解决依赖冲突。相较于SWE-bench，它的场景更贴近真实的开发环境。

44%的pass@1意味着，在完全不依赖多次采样或重试的情况下，GLM-5.2有将近一半的几率一次性完成一个复杂的软件工程项目。这个数字若放在半年前，任何开源模型都难以望其项背。GLM-5系列此前已在SWE-bench Verified和Terminal Bench 2.0上斩获开源SOTA，与Claude Opus 4.5并驾齐驱，而5.2版本则将这一差距进一步拉大。

不是突袭，是蓄谋已久

智谱AI的GLM系列在国内素来口碑稳健，但在国际开发者社区中，其声量与Qwen、DeepSeek相比黯然不少。GLM-5.2的异军突起并非一夜之间的运气。GLM-5系列自架构层面便另辟蹊径，深度优化Agent核心能力，从训练阶段就围绕工具调用和长链路执行进行设计。GLM-5-Turbo版本更是在编码场景上投入了大量针对性优化。

这一策略在GLM-5.2上得到了集中兑现。当其他开源模型还在基座能力上内卷时，GLM-5.2已经把Agent交互、代码理解、长上下文等“工程友好型”指标拉升至闭源模型的水平线附近。Rauch的“shocked”背后，除了对评测分数的认可，更包含着对一款能直接融入生产流程的开源模型的意外发现。

闭源的一边，沉默在蔓延

而最为耐人寻味的一幕是：当Rauch的推文和Datacurve的榜单在X上累计数万次浏览、数百次转发时，闭源模型阵营——无论是OpenAI还是Anthropic——都陷入了一片沉默。没有新的评测数据释出，也没有产品升级公告。

“一个开源模型的编码能力至少与Opus 4.8、GPT 5.5相当”——这并非边缘评价，而是来自多个可信信源的交叉印证。在此之前，闭源模型的叙事逻辑始终是“我们贵，但我们是最好的、最可靠的”。当开源模型在核心编码任务上追平甚至反超这个“最好”时，那套叙事便出现了裂缝。

开源与闭源之间的差距，已从“能不能用”演变为“谁更好用”。

更值得关注的并非榜单本身，而是信号的高度一致性。从DeepSWE的标准化评测，到Vercel创始人的第一手体验，再到开发者社群的广泛口碑，三条线索汇向同一个判断：GLM-5.2在编码领域，已经进入了“无需开源滤镜”的评价体系。人们不再因为它是一款开源模型就说“不错了”，而是直接将它和顶级的闭源模型放在同一维度上比较。

这一周，GLM-5.2让许多人看清了一个事实：开源模型追赶闭源的速度，远超大多数人的预期。至于闭源模型将如何回应，所有人都在屏息等待。