Step 3.7 Flash 实测：Agent 工作流的高频推理引擎如何重塑生产力

June 20, 2026

周末例行查看常用的模型供应商控制台，突然注意到阶跃星辰刚刚上线了 Step 3.7 Flash，便立刻配置尝鲜。早就听说这款模型要来：新一代高效多模态 Flash 模型，主打极速推理、长上下文、工具调用与多模态工作流，直接面向 Agent 场景，最高生成速度可达 400 tokens/s。

用 CC Switch 打开 Claude Code 的配置文件，填入 Step 3.7 Flash 的相关信息，保存退出，再重新启动 Claude Code，就可以直接体验这款新模型了：

一、上手实测：用 Flash 模型搭建 Agent Loop Analyzer

最近打算做一个叫 Agent Loop Analyzer 的小组件，用来分析 Agent 在规划与执行任务过程中各阶段的耗时和成本。还没正式动工，正好拿 Step 3.7 Flash 试试手。

我的整体目标是生成一个“Agent Loop Analyzer”小工具：让 Coding Agent 从零开始构建一个 Vite + React + TypeScript 单页应用，用来估算 Agent 任务在规划、搜索、工具调用、代码生成、验证五个环节的耗时和成本，并通过图表直观呈现结果。

最终我给到 Agent 的 Prompt 是这样的：

从零开始创建一个 Vite + React + TypeScript 单页应用，名称为 Agent Loop Analyzer。  
功能要求：1. 左侧配置 Agent 任务的五个阶段：规划、搜索、工具调用、代码生成、验证。2. 每个阶段可输入调用次数、平均输入 tokens、平均输出 tokens、预估延迟。 3. 右侧实时展示总 tokens、总耗时、估算成本和阶段占比。 4. 用简单图表展示每个阶段的耗时占比。 5. 提供一组默认示例数据。 6. 支持导入和导出 JSON 配置。 7. 生成 README，说明如何启动、如何使用、核心设计取舍。8. 完成后运行构建检查，并汇报是否通过。 约束： - 使用 React + TypeScript。- 样式使用普通 CSS，不引入复杂 UI 库。- 优先保证第一版可运行、结构清晰、代码可维护。  
记录四个结果就够了：模型版本、推理强度、首次生成是否能跑通、人工修改了几处。这个 Demo 能同时测 Coding、Agent loop、工具调用稳定性和 first-pass 完成度。

任务交给 Step 3.7 Flash 后，通过 Claude Code 的调度，模型迅速展开了规划与骨架搭建，接着开始编写代码。

不过几分钟功夫，一个逻辑完整的 Demo 页面就出现在我面前：

完成初步生成之后，我继续与模型一起分析 Claude Code 的数据格式，希望能直接获得真实的 Agent 执行数据：

经过几轮交互，最终拿到了最近一次 Agent 任务的实时分析，还额外增加了自定义单价的功能：

这个小工具很快就完工了，而 Step 3.7 Flash 也给了我一些意料之外的惊喜。推理速度极快，几乎没有出错，设计层面也在线，价格还便宜量又足。换作让 Opus 4.8 来做同样的事，怕是五小时额度都不够折腾的。

二、Agent 效率：速度、成本、稳定性三重奏

个人使用模型时，主要关注的是智能程度和响应速度。可一旦把模型接入公司的生产系统，尤其是当系统用户量很大——面向企业成千上万，面向消费者百万千万——效率和成本就变成了首要考量。

一个生产级任务，往往要穿越规划、搜索、工具调用、代码生成、多模态理解、结果验证等环节。模型在某个节点慢了半拍，整条链路就会把这种延迟逐级放大；Token 稍微贵一点，高频调用就会把成本成倍推高；一旦出错，Agent 就必须返工，效率立刻打折。

而 Step 3.7 Flash 除了聪明和快，真正的发力点正是“Agent 效率”。

Step 3.7 Flash 的定位是面向生产级 Agent 的高效率 Flash 模型，核心场景集中在 Agent、Coding、Search 与多模态工作流。它延续了 196B 总参数、约 11B 激活参数的架构设计，最高生成速度能达到 400 TPS，并重点优化了工具调用的稳定性、智能体能力与代码能力。模型已经开源，在 GitHub 和 Hugging Face 上都可以获取，支持本地部署。

我从中读到的信号是：在 Agent 场景飞速演进的当下，Flash 模型正在从旗舰模型的轻量替代品，转变为 Agent 工作流里的高频发动机。

过去很多模型的使用方式都是一次输入、一次输出。写段文案、总结文章、回答一个问题，慢一点也还能接受。Agent 场景则完全不同，它需要自己拆解任务、查阅资料、读取文件、修改代码、调用工具，再依据结果继续推进下一步。

在这种工作流里，速度、成本和稳定性就成了主角。一次调用省下几秒钟，放到十几轮调用里，用户就会真切感觉到快；一次调用成本降一点，放到上百个 Agent 任务里，用户就会觉得真划算。

三、原生多模态：砍掉多余的胶水工程

原生多模态是 Step 3.7 Flash 的另一个重点。

它原生支持图像和视频理解，用户在 Agent 框架里不必借助视觉 MCP 或额外的视觉模型，直接把文件丢过去就行。比如我把一段介绍 Claude Code Agent View 的视频扔给它，很快就得到了详尽的讲解：

这对生产级 Agent 来说至关重要。真实任务里的信息很少干干净净地躺在文本里，它可能是一张 UI 截图、一段操作录屏、一张白板照片，或者一份夹杂着图表的文档。

如果是非原生多模态模型，往往需要接入额外的视觉工具、图片理解服务，再把解析结果转给大语言模型。中间多一层编排，就多一层误差和维护成本。

原生多模态把这层复杂性简化了。Agent 可以把截图、文档、视频、网页和代码放进同一条推理过程，大幅减少胶水工程。

四、内置搜索：让 Agent 更主动

Search 也是同样的逻辑。

Step 3.7 Flash 中，搜索变成了 Agent 思考与行动的一部分。这一次特别针对搜索能力做了强化，让模型在需要查资料、比对信息、验证结论时，能够更快地拉取上下文、更准确地读懂检索结果，并更主动地把新信息融入后续决策。

对开发者而言，日常工作中的市场调研、竞品分析、资料整理、代码库升级，都可以交给一个会主动搜索的 Agent 去完成。它懂得什么时候该查，查到什么程度算足够，什么时候该停下来核对，再基于最新信息把结论输出给你。

我尝试将 Step 3.7 Flash 与墨问 CLI 搭配，用来搜索 Vibe Coding 和 Agent 工具，效果相当不错：

五、开放生态与生产部署：进入真正的生产力循环

Step 3.7 Flash 这次还特别针对 Hermes Agent、OpenClaw、Codex、Claude Code、Kilo Code、OpenCode、Cline 等主流 Coding 与 Agent 框架做了适配优化，同时提供 Chat Completion API 和 Messages API 两种接口形态。

接入成本非常低，感兴趣的同学基本可以做到 Token 自由。

另外，不同权重的 Step 3.7 Flash 都已经开源，这是一款可以在生产环境自由部署的模型。对于企业级 Agent 来说，很多场景牵涉内部代码、客户数据、业务流程与权限系统，模型能力之外，部署方式和可控性同样关键。

整体看下来，我觉得这款模型最契合高频、多步骤、工具密集的 Agent 场景，比如 Coding Agent、搜索增强工作流、多模态文档处理、UI 截图理解、简单的 GUI Agent 操作等。至于 3D、复杂物理仿真、极长上下文任务，则不是 Flash 模型的主场。

在我眼里，Step 3.7 Flash 完成了一个重要的角色转身：从过去只强调“更快、更便宜”的 Flash 模型，走向了深度嵌入 Agent 工作流。在 Agent 时代，模型的竞争不再只看峰值的智能，还会聚焦每一次循环中的速度、成本、稳定性与可控性。

能真正融入 Agent 工作流的模型，才算真正切入了生产力。