纯文本模型GLM5.2，如何在网页设计上击败所有能看见的对手

June 22, 2026

一个没有视觉感知的纯文本模型，在网页设计评测中碾压了所有具备“视觉”能力的竞品。这听起来不可思议，却真实发生了。

一个开源模型，冲上了设计评测榜首

6 月 19 日，评估平台 Design Arena 放出了最新报告。GLM 5.2 在单轮网页设计（非智能体模式）排行榜上位列第一，将 Claude Fable 5、Opus 4.6、Opus 4.7 等明星模型尽数甩开。Fable 5 此前长期霸占 Design Arena 胜率头名，数月未遇敌手。GLM 5.2 是第一个终结这一格局的模型。

GLM 5.2 由 Z.ai 推出，参数量 7440 亿，采用 MIT 开源协议。最令人意外的是它根本没有视觉能力——却要在“看”的细分领域里击败各路“视觉”高手。更惊人的是价格：每百万 token 输入仅 $1.40、输出 $4.40，仅为 Fable 5 的八分之一（Fable 5 为 $10/$50）。

Design Arena 评测报告指出：“它是 MIT 协议开源模型。尤为难得的是，Z.ai 用与 GLM-5.1 完全相同的 7440 亿参数规模，在不具备视觉能力的条件下实现了这一成绩，而其最接近的竞争对手，参数规模据推测足有 6.7 倍之多。”

它写出的网页，天然更讨喜

Design Arena 团队对大量案例逐项分析后，归纳出 GLM 5.2 三个关键行为特征。

第一，它掌握了一套优雅的模板体系。 团队将 GLM 5.2 与 Fable 5 各自生成的 1000 个网页截图进行聚类，发现 GLM 5.2 存在明显的模板化倾向——不同提示词下输出结构高度一致。但这套模板的设计质量远超其他模型的惯用套路：没有早期 AI 生成那种紫色渐变、过度装饰的拙劣风格，代之以用户更青睐的成熟布局。

第二，它生成的代码“开箱即跑”。 不少模型在调用 chart.js、three.js 等库时容易出错，GLM 5.2 却利用它们游刃有余。在需要使用这些库的 21% 评测对话里，它的胜率直接拉高了 6 个百分点。此外，它在 91% 的会话中都采用了 TailwindCSS，而 Opus 4.8 仅为 57%。

第三，它写得更慢、更细、更用心。 GLM 5.2 平均生成耗时 304.7 秒，是 Fable 5 的两倍；输出代码字符数量多出 25%，行数同样多出 25%。这些多出来的篇幅被用于注入动画、排版变化和交互细节，尤其适合营销落地页。评测用户在打分时，明显更偏好这种“有雕刻感”的产出。

它看不见自己的作品，但子 Agent 可以一眼洞察

GLM 5.2 有一个先天短板：没有视觉能力。它能编织出网页，却无法看到页面最终的模样。这使得它在设计评测中拿第一，更增添了几分黑色幽默。

Browser Use 团队做了一件事，直接补上了这个漏洞。他们在 v2 版本中提供了多模态 QA 子 Agent，专门承担视觉验收。工作流是这样的：GLM 5.2 只专注生成，把网页写出来；接着，多模态子 Agent 截图、审查、找 bug、评判美观度，再把这些改进建议递回给 GLM 5.2 进行迭代。一个从生成到质检再到修复的全自动闭环就这样形成，无需任何人工介入。

这正是 Browser Use 在推文中强调的重点：GLM 5.2 能建站，却看不清成品，所以用多模态 QA 子 Agent 完成视觉回路。 整条流程走下来，从设计到质检，成本还不到 0.75 美元。

一个看不见的建造者，配上一群视力敏锐的质检员。这种分工，以前只存在于人类的工地上。

刷屏背后，是三条平行线的交汇

这条推文 24 小时内收获 4.2 万浏览、442 个点赞、377 次收藏。评论区中最普遍的情绪就是惊叹——一个 MIT 开源的参数量模型，在纯文本的局限下，仅凭写代码的“手艺”就战胜了顶尖视觉模型。

但如果把这件事拆开来看，会发现三条主线正在同时推进。

第一条，开源模型的能力飞跃。 GLM 5.2 的 744B 参数与 MIT 协议，意味着任何人都能部署、微调、商用。就在几个月前，开源模型还在追赶闭源模型，如今已在细分赛道完成反超。Z.ai 通过 Agent Trace Distillation 和 token 级别优化实现突破，而对手中最大的模型，规模推测是其 6.7 倍。

第二条，Agent 编排弥补模型短板。 纯文本模型不擅长视觉质检，那就让多模态子 Agent 来补位。GLM 5.2 输出更充裕（代码量多 25% 以上）、子 Agent 审查更精准、迭代更快速。这种“看不到但做得到，能看到还能修好”的系统化能力，比单一的模型本领更为关键。

第三条，成本降至可随意试错的阈值。 完成一次设计到质检的闭环，只需不到 0.75 美元。这意味着，你可以让 GLM 5.2 一次生成 100 个着陆页方案，每个都由子 Agent 检查验收，总花费不到 80 美元。而在 Fable 5 上，仅输入输出 token 费用就不止这个数。

纯文本的局限，恰恰是它的支点

GLM 5.2 并非全能选手。在游戏开发、数据可视化、3D 设计和 UI 组件等多个排行榜上，它依然落后于 Fable 5。但在网页设计这条赛道上，它找到了一条独特的路径：写得更多、用更成熟的模板、让代码一次跑通，然后借助子 Agent 系统补上视觉盲区。

GLM 5.2 的胜利，本质是“分工式”的胜利。写代码的模型只管写代码，质检的模型只管质检。双方在各自擅长处做到极致，中间由 Agent 编排来桥接。这不再是一个模型击败另一个模型，而是一个体系打败了一个孤立的模型。

对那些正在构建 Agent 的人而言，这件事的启示更直接：当你的模型存在短板时，不要坐等下一次版本升级，让另一个模型来补位就好。一个纯文本模型，加一个视觉质检子 Agent，两块加起来的成本不到一块钱，却做出了当下最顶尖的网页设计效果。

Fable 5 依然是综合实力更强的模型。但如果你只需要做网页设计，GLM 5.2 配合 Browser Use 的子 Agent 系统，是当前性价比最高的组合——没有之一。

一个开源模型在一个细分领域上打败了所有闭源对手，接着另一个团队用 Agent 补上了它天生的短板。这种“队友补位”式的协作，比单个模型的能力突破更值得深究。

来源：Design Arena, Browser Use