Step 3.7 Flash首发评测:极速400 TPS开源多模态模型,视觉理解与Agent实战体验
日前,一款名为 Step 3.7 Flash 的开源大模型正式亮相。官方宣称其生成速度可飙升至 400 Token/s,并且原生整合多模态视觉理解——即便在图像、视频输入都尚未普及的当下,这已属稀缺能力。我先用一个刁钻的问题考了考它:既然全宇宙都在膨胀,那我变胖是不是也符合宇宙规律?

在你还在愣神的时候,模型已经完成了推理并给出答案——全程只花了大约 2 秒,来自纯粹的 API 调用。

性能参数上,Step 3.7 Flash 总参数量达到 198B(激活 11B),原生支持视觉理解,上下文窗口长达 256k,并且为智能体(Agent)场景做了专项优化。最让开发者心动的是它的输出速率——可达 400 TPS,而业内多数模型的吞吐量还挣扎在 100 TPS 以下。
价格贵不贵?答案是否定的。订阅 Step Plan 最低仅需 38 元/月。直接走 API 的话,输入(命中缓存)为 0.27 元/百万 Token,缓存未命中时为 1.35 元,输出为 8.1 元。单看这些数字,似乎并未比 DeepSeek v4 Flash(输入 1 元/输出 2 元)便宜,但如果加入“多模态 + 超高速”的维度,它的性价比便立刻凸显。更关键的一点:它开源了。


一手实测:基准与速度
先看官方给出的 benchmark 成绩。

通俗总结就是:
- 与 GPT-4o、Claude 3.5 Sonnet 相比,仍有追赶空间,但对标 Gemini 已能实现部分超越;
- 与 DeepSeek 系列各有胜负;
- 相较上一代模型提升显著;
- 速度方面一骑绝尘——当前大部分模型的输出速度甚至不超过 100 TPS。
以 Artificial Analysis 的速度榜单为参照,此前最快的 GPT-5.3 也只跑到约 130 TPS。

而 Step 3.7 Flash 能做到 400 TPS,背后究竟用了什么优化暂且不明,但实际调用时,我可以稳定拉到 330 TPS 以上。

下面通过几个具体任务,带你直观感受它的表现。
1)视觉编程任务
第一项测试是视觉理解 + 编程能力的组合:我给它展示一张桥梁照片,但不告知名称,让它自行理解并设计一个对应的 3D 模型。

模型一次生成,效果颇为出色,还准确指出这是旧金山的金门大桥。

不过实话实说,前端表现与顶级的 k2.6、glm5.1 等模型仍有差距。
2)视觉理解任务
我从某设计软件中截取了一张界面图,并随手圈出一个区域,问它:如果想进行模糊处理,应该怎么操作?

尽管界面包含大量信息,模型仍然一眼识别出这是 Photoshop 工作区,并迅速给出详细的操作步骤。整个响应过程仅用了 6 秒,输出速度快得惊人。

这让人不禁联想:当速度足够快时,会不会催生实时渲染的交互新产品?AI 游戏是否会加速落地?
再来看两个官方演示案例。
用户上传一张飞机驾驶舱图片,并输入“如何起飞”的指令,模型便以秒级反应在图像中定位起飞关键按钮,并生成逐步教程。
另一个场景是网页浏览。用户询问“这些设计有什么有趣之处”后,模型会自动框选界面元素、识别信息、理解图像设计,并输出专业分析。与传统视觉模型“给一张图、一次性交付结果”的模式不同,Step 3.7 Flash 会分步骤、近乎实时地进行讲解,仿佛一位旁白解说正在现场指引。
这样的交互范式的想象空间极大。比如,老师在 PPT 全屏讲课时,模型可以随着讲解实时圈画重点——而无需老师始终手握鼠标来操作画笔。

你可能说,PPT 自带的画笔功能也能做到,何必多此一举?但反过来说:你使用画笔时,是不是必须用鼠标一直操作?而老师上课可能一手拿课本、一手捏粉笔,甚至正准备敲醒走神的你。若将 Step 3.7 Flash 搭载到 AI 眼镜中,所见之处皆可实时渲染,这个场景与智能汽车、XR 设备的结合路径便豁然开朗——阶跃星辰的多模态模型本就与车企有着深入合作。
3)Agent 长程任务
沿用我们的经典测试任务:
提示词:联网搜索、调研 Step 3.7 Flash 模型的关键信息,尽量从权威信源获取。先为我生成一份 2000 字的 Word 调研报告(并附 PDF 版),然后调用 guizang-ppt skill 制作一份 10 页的高级审美 PPT。
这项任务串联了联网搜索、Word 生成并转 PDF、skill 调用、代码开发,甚至包括上线前的 chrome-devtools-mcp 页面测试,极度考验模型的长程执行能力。
有趣的是,我发现这款模型格外适合干测试。此前用 Claude Code 做测试时,不少模型调用 chrome-devtools-mcp 只是走走过场,而 Step 3.7 Flash 却能一环扣一环地真正检查——因为它具备视觉理解能力,并且速度极快,每一步验证都几乎瞬时完成。

最终产品如下。首先是一份内容详实的 Word 报告。

然后是风格优雅的 PPT。

所有产物均为一次生成,整体质量可圈可点。
4)推理型 3D 编程任务
最后,用一个略带推理难度的 3D 编程任务收尾。
提示词:Create a single HTML file containing a fully functional 3D Rubik’s Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself.
模型产出的 UI 很美观,功能也较丰富,但在自动求解的建模与运算路径上出现了偏差。

推测这版模型在 3D 专项任务上缺乏足够训练,因此表现相对普通。

总结与生态
整体体验下来,Step 3.7 Flash 的核心优势非常聚焦:
- 多模态视觉理解
- 变态级的输出速度(可达 400 TPS)
在同级别的开源模型中,绝大多数还未配备多模态能力,更不用说 400 TPS 的极致速度——很多模型能突破 100 TPS 已属不易。
坦诚地讲,它的 Coding 能力距离顶尖模型尚有距离,但“快”与“多模态”这两记重拳,足以让它在 Agent、实时交互等场景中占据一席之地。
开源方面,官方在 HuggingFace 上放出了 BF16、FP8、NVFP4、GGUF 四种精度权重,并支持 vLLM、SGLang、llama.cpp、Hugging Face Transformers 等主流推理框架,丰俭由人。

API 同时兼容 OpenAI 和 Anthropic 两套协议,Claude Code、Codex、OpenClaw、Hermes、Cursor、Cline、Kilo Code、Open Code 等工具均可直接接入。
目前,阶跃星辰开放平台已可体验 Step 3.7 Flash,并支持 Step Plan。模型详情与接入方式可查阅:
https://static.stepfun.com/blog/step-3.7-flash

