Qwen3.7Max性能称雄但成本惊人，与Gemini、Opus真实对比全解析

June 13, 2026

近期 Qwen3.7 系列热度持续走高，“国产最佳、世界第二”的评价屡见报端。原本对闭源模型已兴致缺缺，但大量读者反复催促，再次勾起实测的兴趣。

不得不说，Qwen 每次更新的封面图还是相当会玩且养眼，不过自家的 Image 系列似乎已经很久没有开源了。

一、价格一探究竟

准备开测时，才发现手边缺少趁手的接入渠道。原本可用的 CodingPlan 即将到期且无法续费，改用 TokensPlan 则最低月费 198 元起，稍高配置便跃至 698 元，对比 Opus4.8 仅需 140 元不到，实在不太划算。无奈之下，只能直奔官方 API。

查看官方价目表：

输入 12 元/百万 Token，输出 36 元/百万 Token，缓存 2.4 元/百万 Token。这个定价实在不能算便宜。好在目前有五折活动，并附赠 100 万 Token。不过 100 万 Token 大致相当于一个上下文的容量，在长程任务中可能转瞬即光。

二、官方基准表现速览

实测之前，先来看官方给出的基准成绩。

整体来看，确实颇具统治力。官方称其基本实现对 DeepSeek V4、GLM5.1、Kimi K2.6 以及 Opus4.6Max 的全方位超越。

官方博客的核心描述十分高调：

Qwen3.7-Max 致力于成为全能的智能体基座——无论是编写和调试代码、自动化办公流程，还是在跨越数百乃至数千步的长周期任务中持续自主执行，都能胜任。
Qwen3.7-Max 的核心优势在于智能体能力的广度与深度：
编程方面，从前端原型开发到复杂的多文件工程均能驾驭；
办公与生产力方面，通过 MCP 集成和多智能体协作实现工作流自动化；
长周期自主执行方面，在一项长达 35 小时、超过 1,000 次工具调用的全自主内核优化实验中保持了连贯推理，充分验证了其持久稳定的执行能力；
此外，无论部署在 Claude Code、OpenClaw、Qwen Code 还是其他框架下，都能稳定发挥出色的跨框架泛化能力。

关键词很明确——“全能的智能体基座”，优势落在智能体能力的广度与深度。

三、正式实测开始

尽管 Qwen 有自家原生工具，但为了统一对比，本次测试依然统一使用 Claude Code 环境。只需稍作配置即可开始。

在 JCode 中添加配置，填写 API Key、BaseURL，并指定 qwen3.7-max 模型：

保存后一键启用 CC：

确认配置生效后，正式开测：

本次测试目标是创建一个名为《江湖百晓生》的网站。这个项目的背景在此前多篇文章中已有详述。由于 Qwen3.7Max 在前端开发方面宣称表现突出，并在竞技场中排名居前：

因此该项目十分契合——它极度考验数据处理、个性化设计以及主题匹配能力。同时，近期已用 Gemini3.5Flash、MiMo 和 Opus4.7 完成同样任务，正好可以横向对比。

四、多模型网页生成对比

为了让大家快速抓住要点，直接先看成品再看过程。

Qwen3.7Max 生成的网站首屏：

第一印象尚可，整体偏小清晰淡雅。布局规整，不存在错乱，字体、配色中规中矩，内容疏密适中。

但好坏往往是对比出来的。下面是其他选手的同题表现。

小米 MiMo2.5Pro 的首屏效果：

Gemini3.5 的效果：

Opus4.7 的效果：

对比之下感受如何？

MiMo 的表现令人皱眉，首轮结果无论是布局、审美还是数据质量都极不理想，基本没有继续评价的空间。Qwen3.7 整体稳定，找不到明显问题，但问题恰恰出在过于平淡——黑色按钮偏现代风，配色无张力，字体无风格，各页之间同质化严重，缺少武侠应有的豪迈和冲击力。首屏描述也显得机械：“纵览金庸古龙武侠世界，收录35部经典武侠小说，131位江湖人物，101门绝世武功，52件传世兵器”。

Gemini3.5 则完全不同，整体大胆奔放，充满情绪张力。金、红、黑的配色需要一定勇气，配文也十分精辟：

第一句点题：
“知天下人、悉天下兵、辨天下武、记天下事”
第二句援引经典：
“桃花影落飞神剑，碧海潮生按玉箫。” - 黄药师《射雕英雄传》

这种一句一重天的笔法，能瞬间唤起人物与场景记忆。其首页命名为“江湖首卷”，藏书阁设计更是寥寥数笔线条便勾出书籍轮廓，极富韵味：

单独的人物卡片也做得相当到位。

Opus 4.7 则走精致、全面且沉稳的路线。连标签栏的小图标都精心设计，头部字体颇具武侠之气，“金庸”“古龙”双峰并立，一目了然。首屏配以经典联句“飞雪连天射白鹿，笑书神侠倚碧鸳”，并附上一段序文：

集金庸古龙两宗笔耕于一阁。一者构千年江湖大势，写侠之大者；一者勾人性悲喜深处，状孤独浪子。自人物、武学、兵器、门派、地舆五脉而入，或寻一人之传奇，或溯一派之渊源，皆有迹可循。

这段序文功底深厚，精致内敛。更令人叫绝的是，Opus 4.7 甚至生成了武林地图和年表：

还能叠加长江黄河，并提供门派、皇帝、名山、岛屿等筛选，每个元素均可查看介绍。Opus 在做任何系统时，只要指令清晰，总能做到中上水准，前端设计、后端逻辑均无短腿。

强者做出来的网页基本可以直接上线，弱者则需反复返工，而且未必改得好。

五、开发全流程复盘

看完结果，再来回顾 Qwen3.7Max 的开发过程。整体上较为稳健。接到需求后，成功激活 Plan 模式，依次就技术栈、数据源、设计风格、数据格式等逐一问询：

基本依其建议进行选择：

这应该算是当时情境下的最优方案了。现在模型在计划制定阶段普遍表现不错，MiMo 的规划同样可圈可点，问题往往出现在执行落地环节。

计划的核心内容概要：

🏗️ 技术栈：Next.js + React + TypeScript + Tailwind CSS
🎨 设计风格：水墨古风（宣纸底色、墨色朱砂配色、毛笔字体）
📊 数据规模：金庸 15 部 + 古龙 20 部经典，每部整理人物/武功/兵器/场景
📄 页面数量：约 10 种页面类型，含人物关系图谱等特色交互
💾 数据格式：结构化 JSON，约 80-100 个数据文件

下面是其执行流程和待办：

顺序安排合理：先搭建基础架构，再收集数据，随后进行核心页面与特殊功能开发，最后收尾验收。

最终汇报如下：

全程耗时 38 分钟，所得数据由模型根据训练记忆生成，作为首个开发测试版本勉强够用。

全程费用 37 元：

折算下来几乎一分钟一块钱。测试全程未让模型联网抓取数据，完全凭记忆输出，但 Token 消耗依然偏大。初始赠送的 1M 配额瞬间耗尽，随后金额快速攀升，原本预估 10 元封顶，实际接近预期的四倍。因此未再进行第二轮优化，若补充数据，Token 恐怕会进一步狂飙——颇有“用不起”的实感。

相比之下，DeepSeek 测试数十个实例仅消耗二十余元，价格差距悬殊，而能力差异却未拉开同等量级。

六、九大前端考题闯关

除主项目外，还用一套共九个各有侧重的有趣案例进行测试：

例如赛博朋克版清明上河图：

古诗版黑客帝国汉字雨：

华丽版人机对战五子棋：

最终结果：九个案例中出现一个翻车，因 JS 错误导致失效；还有一个“分形烟花秀”在开发过程中多次卡死。其余八个案例均正常产出，页面布局和设计感维持中上水平。该测试在 Qwen 官网的网页设计功能中完成，可能受内置系统提示优化加持。

七、独立项目《掌门日记》实战

另一项测试是《掌门日记》，颇费脑筋。

此前 MiMo 直接在此任务上翻车失败。Qwen3.7 则成功渲染了首页：

然而好景不长，随即出现 JS 错误——模板表达式括号未闭合，导致输入无效，无法进入主界面。代码稳定性仍有待提升，容易犯低级错误。修复后界面如下：

平心而论，布局和风格尚可。审美上有些 GPT5.5 的方正精致感，布局能力或许更胜一筹。更有趣的是，它在生成网页时还自动配上了背景图片，例如五子棋的棋盘、掌门日记的大背景和窗口背景。尽管不清楚其背后的生成逻辑，但图片风格与整体定位融合得相当不错，有背景图的界面质感能瞬间提升一个档次。

毕竟挂名 Max，能力在线，界面也不差。但代码稳定性还需打磨，几次低级错误足以让人心生顾虑。当前更先进的一些模型已能深度解析需求，并与主题高度融合，自动生成具有风格张力的话术和视觉细节。例如 Opus4.7 与 Gemini3.6 在设计武侠百科时，会自主输出武侠味浓郁的文字，选用特色字体，将风格渗透到细枝末节。相比之下，Qwen3.7 还略显粗糙，需要细细打磨。

综合看，Qwen3.7 的测试体验不算糟糕，但也没有太多令人拍案的亮点。再看价格——如果不打折，单次类似测试可能直奔 80 元以上，实在缺乏性价比。当手边已有 Opus4.8 Pro、GPT5.5 Plus、GLM5.1 专业版，加上价格亲民的 DeepSeek API 时，又有什么理由去选择一个贵得突兀的选项呢？难道只因为它更贵吗。