Step 3.7 Flash首发评测：极速400 TPS开源多模态模型，视觉理解与Agent实战体验

June 13, 2026

日前，一款名为 Step 3.7 Flash 的开源大模型正式亮相。官方宣称其生成速度可飙升至 400 Token/s，并且原生整合多模态视觉理解——即便在图像、视频输入都尚未普及的当下，这已属稀缺能力。我先用一个刁钻的问题考了考它：既然全宇宙都在膨胀，那我变胖是不是也符合宇宙规律？

在你还在愣神的时候，模型已经完成了推理并给出答案——全程只花了大约 2 秒，来自纯粹的 API 调用。

性能参数上，Step 3.7 Flash 总参数量达到 198B（激活 11B），原生支持视觉理解，上下文窗口长达 256k，并且为智能体（Agent）场景做了专项优化。最让开发者心动的是它的输出速率——可达 400 TPS，而业内多数模型的吞吐量还挣扎在 100 TPS 以下。

价格贵不贵？答案是否定的。订阅 Step Plan 最低仅需 38 元/月。直接走 API 的话，输入（命中缓存）为 0.27 元/百万 Token，缓存未命中时为 1.35 元，输出为 8.1 元。单看这些数字，似乎并未比 DeepSeek v4 Flash（输入 1 元/输出 2 元）便宜，但如果加入“多模态 + 超高速”的维度，它的性价比便立刻凸显。更关键的一点：它开源了。

一手实测：基准与速度

先看官方给出的 benchmark 成绩。

通俗总结就是：

与 GPT-4o、Claude 3.5 Sonnet 相比，仍有追赶空间，但对标 Gemini 已能实现部分超越；
与 DeepSeek 系列各有胜负；
相较上一代模型提升显著；
速度方面一骑绝尘——当前大部分模型的输出速度甚至不超过 100 TPS。

以 Artificial Analysis 的速度榜单为参照，此前最快的 GPT-5.3 也只跑到约 130 TPS。

而 Step 3.7 Flash 能做到 400 TPS，背后究竟用了什么优化暂且不明，但实际调用时，我可以稳定拉到 330 TPS 以上。

下面通过几个具体任务，带你直观感受它的表现。

1）视觉编程任务

第一项测试是视觉理解 + 编程能力的组合：我给它展示一张桥梁照片，但不告知名称，让它自行理解并设计一个对应的 3D 模型。

模型一次生成，效果颇为出色，还准确指出这是旧金山的金门大桥。

不过实话实说，前端表现与顶级的 k2.6、glm5.1 等模型仍有差距。

2）视觉理解任务

我从某设计软件中截取了一张界面图，并随手圈出一个区域，问它：如果想进行模糊处理，应该怎么操作？

尽管界面包含大量信息，模型仍然一眼识别出这是 Photoshop 工作区，并迅速给出详细的操作步骤。整个响应过程仅用了 6 秒，输出速度快得惊人。

这让人不禁联想：当速度足够快时，会不会催生实时渲染的交互新产品？AI 游戏是否会加速落地？

再来看两个官方演示案例。

用户上传一张飞机驾驶舱图片，并输入“如何起飞”的指令，模型便以秒级反应在图像中定位起飞关键按钮，并生成逐步教程。

另一个场景是网页浏览。用户询问“这些设计有什么有趣之处”后，模型会自动框选界面元素、识别信息、理解图像设计，并输出专业分析。与传统视觉模型“给一张图、一次性交付结果”的模式不同，Step 3.7 Flash 会分步骤、近乎实时地进行讲解，仿佛一位旁白解说正在现场指引。

这样的交互范式的想象空间极大。比如，老师在 PPT 全屏讲课时，模型可以随着讲解实时圈画重点——而无需老师始终手握鼠标来操作画笔。

你可能说，PPT 自带的画笔功能也能做到，何必多此一举？但反过来说：你使用画笔时，是不是必须用鼠标一直操作？而老师上课可能一手拿课本、一手捏粉笔，甚至正准备敲醒走神的你。若将 Step 3.7 Flash 搭载到 AI 眼镜中，所见之处皆可实时渲染，这个场景与智能汽车、XR 设备的结合路径便豁然开朗——阶跃星辰的多模态模型本就与车企有着深入合作。

3）Agent 长程任务

沿用我们的经典测试任务：

提示词：联网搜索、调研 Step 3.7 Flash 模型的关键信息，尽量从权威信源获取。先为我生成一份 2000 字的 Word 调研报告（并附 PDF 版），然后调用 guizang-ppt skill 制作一份 10 页的高级审美 PPT。

这项任务串联了联网搜索、Word 生成并转 PDF、skill 调用、代码开发，甚至包括上线前的 chrome-devtools-mcp 页面测试，极度考验模型的长程执行能力。

有趣的是，我发现这款模型格外适合干测试。此前用 Claude Code 做测试时，不少模型调用 chrome-devtools-mcp 只是走走过场，而 Step 3.7 Flash 却能一环扣一环地真正检查——因为它具备视觉理解能力，并且速度极快，每一步验证都几乎瞬时完成。

最终产品如下。首先是一份内容详实的 Word 报告。

然后是风格优雅的 PPT。

所有产物均为一次生成，整体质量可圈可点。

4）推理型 3D 编程任务

最后，用一个略带推理难度的 3D 编程任务收尾。

提示词：Create a single HTML file containing a fully functional 3D Rubik’s Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself.

模型产出的 UI 很美观，功能也较丰富，但在自动求解的建模与运算路径上出现了偏差。

推测这版模型在 3D 专项任务上缺乏足够训练，因此表现相对普通。

总结与生态

整体体验下来，Step 3.7 Flash 的核心优势非常聚焦：

多模态视觉理解
变态级的输出速度（可达 400 TPS）

在同级别的开源模型中，绝大多数还未配备多模态能力，更不用说 400 TPS 的极致速度——很多模型能突破 100 TPS 已属不易。

坦诚地讲，它的 Coding 能力距离顶尖模型尚有距离，但“快”与“多模态”这两记重拳，足以让它在 Agent、实时交互等场景中占据一席之地。

开源方面，官方在 HuggingFace 上放出了 BF16、FP8、NVFP4、GGUF 四种精度权重，并支持 vLLM、SGLang、llama.cpp、Hugging Face Transformers 等主流推理框架，丰俭由人。

API 同时兼容 OpenAI 和 Anthropic 两套协议，Claude Code、Codex、OpenClaw、Hermes、Cursor、Cline、Kilo Code、Open Code 等工具均可直接接入。

目前，阶跃星辰开放平台已可体验 Step 3.7 Flash，并支持 Step Plan。模型详情与接入方式可查阅：
https://static.stepfun.com/blog/step-3.7-flash