GLM-5.2前端性能实测:全面超越Opus 4.8,全球第二仅次Fable 5
关于 GLM-5.2 的测试我已进行多次,并撰写过详尽的分析。我之前的结论很明确:它依然无法战胜 Opus 4.8。因此,如果笼统宣称“GLM-5.2 全面超越 Opus 4.8”,无异于天方夜谭。不过今天我不再聚焦于它的短板,而是深入剖析其显著进步之处——前端能力。
今天早上打开 X,大模型竞技场的官方账号发布了这样一条消息:

这条消息的核心意思是:
振奋人心的更新:GLM-5.2 (Max) 在 Code Arena: Frontend 中排名第 2,
比 Claude Opus 4.7 (Thinking) 高出 +29 分,仅次于 Fable 5!
GLM-5.2 是开源模型中领先优势最大的,远超 Kimi-K2.6 与 Minimax-M3。
- React 子榜单第 2,HTML 子榜单第 4
- 在品牌与营销、基于参考的设计、数据与分析、消费品、游戏和模拟等几乎所有子类中均位列第一。
一句话总结:GLM-5.2 的前端表现已经超越 Opus 4.8 Thinking,仅次于 Fable 5!
大模型竞技场不同于单纯的基准测试,它融入了真人盲评。尽管目前也掺杂了一些水分,每次国产模型发布都会掀起一波榜单洗刷,但相比干巴巴的基准数字,仍更具参考价值。我个人虽然对这个排名持保留态度,但能够冲到全球第二,本身就说明了一些问题。
在我们的固有印象中,GLM 系列的前端一直是薄弱环节,没想到如今竟然快变成优势领域了!
这对于真正在使用 GLM-5.2 的人来说,无疑是个好消息!
这意味着 GLM-5.2 的综合能力更加全面,投入的成本也显得更有价值。

关于它前端能力的强化,我在前两篇文章中已经有所提及。
尽管原因不明,但 GLM-5.2 似乎加载了一个精美的设计技能包,所有网页作品都精致了不少,尤其在布局上已经超越了 GPT-5.5(主要因为后者前端实在太拉胯)。
因此,今天这篇文章重点剖析前端问题。各位可千万别小看前端,它最复杂的地方在于与终端用户直接交互,和人打交道的事,从来都不简单。
正好借着这个机会,让大家直观感受 GLM-5.2 与 GLM-5 老版本之间的差异。

同时也会引入 Opus 4.8 作为参照。
今天不会抨击任何人,前些天的测试已经够累了,就安安静静地做个对比,帮大家在未来选择模型时做到“心中有数”。
我挑几个特别有代表性的例子来展示。
先观看一段完整演示视频,然后再细细拆解。

演示视频链接:GLM-5.2 前端对比演示
看完视频,你应该立刻就有了直观的感受。
1、赛博朋克风《清明上河图》重生
我们先来看这个极具辨识度的项目。

这个命题比较独特,大概率没有被各家大模型针对性训练过,因此非常考验泛化能力、审美素养与布局逻辑。真正底子够硬的模型才能处理得精彩,很多模型的表现完全是糊弄。
直接看生成效果。
Opus 4.8 的效果:

GLM-5.0 的效果:

GLM-5.2 的效果:

对比是不是非常明显!
GLM-5.0 时期完全不成样子,而 GLM-5.2 已经能够呈现各种建筑与物体的基本形态,进步已经相当可观。可以进一步提升的地方在于,它的“赛博味”够浓了,但“清明味”几乎没有。
Opus 4.8 在房屋线条、灯笼、配色、文字等方面都带着浓郁的清明气息,赛博与《清明上河图》的融合做得更加自然。
当然,还有一位选手更为惊艳:

古人的服装赫然显现!还能看到上善门,以及汴河水位的实时播报!

虹桥宛如反重力枢纽!上方悬浮着两种飞行器,下方则是船只与倒影。
远处的背景图也一览无余:

意境直接拉满!
好了,暂不夸它了,今天的主角是 GLM-5.2。我们可以看到,相比前代版本,它的前端输出实现了质变,在众多国产模型中已经处于出类拔萃的水平。因为其他国产模型基本还停留在 GLM-5.0 的效果线上。
2、无限流剧情终端
无限流终端需要构思一个冒险故事,并根据玩家的选择推进剧情,允许一直玩下去,同时还要考虑蝴蝶效应——每一次选择都会影响后续的因果发展。
这道题原本考察的是模型的逻辑构思能力,没想到 GLM-5.2 的视觉效果意外地出色,所以我特意放在这里做个展示。
Opus 4.8 的效果:

GLM-5.0 的效果:

GLM-5.2 的效果:

这次我不评价 Opus 4.8 的逻辑能力了,你们可以自己去试玩感受。我们主要聚焦 GLM-5.0 与 5.2 的差异。
GLM-5.0 的布局几乎是崩塌的,内容直接溢出了边界。
GLM-5.2 的布局恢复正常,动画效果十分炫酷,视频中应该能感受到那股冲击力!
此外,它的配色与深浅层次都拿捏得恰到好处。
这个题目,我之前还专门开发过一个桌面软件:

当时使用的模型是 GLM-5.1,故事讲的还行。现在想想,完全可以把视觉效果和底层模型一起升级一下!
3、华丽五子棋博弈界面
这道题同时考验算法实现与 UI 设计!五子棋项目已经出现在 ZCode 的官方演示中,说明应该在特定方向做过优化。
直接看结果。
Opus 4.8 的效果如下:

GLM-5.0 的效果如下:

GLM-5.2 的效果如下:

Opus 4.8 展现得近乎完美,我就不多说了。无论是智力表现、审美水准,还是主题契合度,都相当出色。
GLM-5.0 的设计感则弱了很多,蓝色背景与主题相去甚远。
GLM-5.2 在棋盘、背景和配色上都有了优化。不过,当前主题下,这个底色其实还不是最佳选择,还可以进一步调整。
金色的点缀帮它挽回了一些分数。可惜这个示例存在 Bug……哈哈!上篇文章已经分析过了。
4、霓虹奔跑者:冒险岛式平台跳跃
这个例子很有冒险岛那种不断向前推进的感觉,需要支持二级跳,地图需实现3层视差效果,最后角色死亡时还要有炸裂表现。
Opus 4.8 的效果如下:

GLM-5.0 的效果如下:

GLM-5.2 的效果如下:

这一轮 GLM-5.2 的表现颇为优秀。角色终于长出了腿,也做出了一点炸裂效果。更重要的是,画面的纵深感非常出色,这正是一种空间能力的体现。
5、三维太阳系模型
这个例子原本是考验 3D 渲染能力的,即用一个 HTML 文件构建可交互的 3D 太阳系模型。
GLM-5.2 的 3D 效果虽然不够强,但却意外地展现出了不错的抽象艺术感。
下面是 Opus 4.8 的效果:

GLM-5.0 的效果:

GLM-5.2 的效果:

Opus 4.8 纹理细节丰富,是所有选手中写实感最强的。
而 GLM-5.2 这次走起了抽象路线,仅用简洁的线条来构建整个 3D 太阳系,不够写实,但线条处理得还算干净利落,透着一股设计感。
我用 ZCode 生成的所有示例,几乎都弥漫着这种“设计感”。
因此基本可以判断,GLM-5.2 在前端方面是经过专门训练的。目前来看,它有时精美得有点过头,设计感过于强烈,可能会出现所有作品都带同一种风味的感觉。但和前代版本相比,进步确实巨大,不再那么粗糙了。
从上面这些例子也能看出,某些场景下,它的视觉效果和交互体验的确很出色,已经能在局部击败 Opus 4.8,这无疑是个好消息。当然,论及全面能力,实事求是的说,差距依然不小。在处理耗时、思考深度、首次准确率等方面,仍有待持续提升。
智谱的发展路径是正确的,它一直在向 Claude 看齐,专注于提升模型自身能力,并且对 Claude 的兼容性也很高。在 Opus 不可用的情况下,GLM-5.2 是一个很不错的选择。要让它去对标顶尖模型,目前还差点火候。但回归现实场景,对国内用户,尤其是开发者来说,它依然是首选。