Claude Code用户的三重境界：你是抄代码的，还是指挥AI军团的？附自测表

May 10, 2026

王国维在《人间词话》里提到，古今之成大事业者，必经三种境界。文学我不在行，但混了一段时间AI编程社区之后，我发现AI编程这件事同样存在三重境界——可惜绝大多数人卡在第二层，还浑然不觉。

先看两组数字让你清醒一下：84% 的开发者已经用上了AI编程工具。可独立评估机构METR的一项对照实验显示，让16位经验丰富的程序员用AI完成246个任务时——他们反倒慢了19%。

更黑色幽默的是，这些参与者自认为快了20%。

工具越来越强，人类反而越干越慢，还自我感觉良好。毛病不在工具上，在思维模式上。

你觉得自己用上AI之后，是快是慢？到留言区坦白交代吧。

我用Claude Code做了大半年的日常开发，又参考了Google的Addy Osmani、Steve Yegge、Peter van Hees等人总结的AI编程成熟度模型，加上Claude Code创建者Boris的亲传心法，消化下来，将整个演进路径简化成三层境界。

不多不少，就三层。多了你记不住，也没那个必要。

第一重境界：让AI替你写代码

你目前的做法

打开IDE，装好Copilot或Cursor，AI开始在光标后面弹出灰色代码提示。你按Tab采纳，Esc拒绝。偶尔打开侧边对话窗口，丢一句"帮我写个解析JSON的函数"，然后把生成的代码粘进工程里。

也可能你已经用上了Claude Code，但使用方式还是老一套：打开终端，给一句含糊的需求，等AI吐出代码，瞄一眼能编译就算通过。

这个层次的特征

维度	表现
交互方式	提示词驱动，想到哪儿问到哪儿
AI角色	高级键盘，打字加速器
任务粒度	功能级——“帮我写个登录页”
上下文管理	基本不管，让AI自己猜
质量保障	能编译即可

Peter van Hees把这类人称为"提示员"和"计划员"——AI在你手里就是个打字加速器。把需求往聊天框一扔，AI甩回来一坨代码，你复制粘贴、改改就上线。

这一层有毛病吗？没有。尤其在写CRUD、生成样板代码、查API语法的时候，确实能省下不少时间。

但问题恰恰在于，84%的开发者都停在原地。

Google DORA 2024研究里有一条扎心的结论：AI采用率每提高25%，交付速度反而下降1.5%，系统稳定性下降7.2%。AI协作提交的Pull Request，出问题的概率是人类独立完成的1.7倍。

为什么会这样？因为这一层有一个致命伤——van Hees称之为**“上下文近视”**。

你的每一条提示词都是孤立的。AI不知道你的系统架构长什么样，不知道上周你为什么选了方案A而不是方案B，不知道哪些模块之间存在隐藏的依赖。它只能看见当前这段对话，然后从统计概率最高的选项里挑一个答案递给你。

Addy Osmani概括得直截了当：

“如果你给LLM一个含糊的需求，让它直接开写，它很可能产出一段’十个开发者在零沟通的情况下各写各的’风格的代码——逻辑重叠，架构混乱，连方法命名都对不上。”

怎么判断自己在这一层

问自己一个问题：上一次你让AI写代码之前，先动手写过一份规格说明文档，是什么时候？

如果答案是"从来没写过"——恭喜，你就在这一层。

突破的方法

不是让你去啃什么高深的提示词工程。核心只有一条：在动手写代码之前，先把需求想透。

用Claude Code的话，可以这样起步：

我想做一个用户登录模块。在开始写代码之前，请先问我问题，
直到你完全理解所有细节为止。然后把讨论结果整理成 spec.md。

这一步看起来慢，实际上省下的调试时间比你想象的多得多。Addy Osmani管这叫"15分钟内的瀑布"——快速的结构化规划，让后面的编码顺畅无比。

一旦你开始在Claude Code里维护CLAUDE.md文件，开始为项目写规格文档，开始在让AI写代码之前先写好测试——你就已经望向第二层了。

第二重境界：让AI替你干活

你正在做的事情

你不再去IDE的聊天侧边栏闲聊了。你直接打开终端，跟Claude Code对话，告诉它"按spec.md实现Step 3"，然后它自己读文件、改代码、跑测试、修Bug，你只需要在旁边盯着。

用Boris（Claude Code创建者）的话说——他30天完成了259个PR，每一行代码都由AI亲自编写。

这个层次的特征

维度	表现
交互方式	目标驱动，AI自主执行
AI角色	结对编程搭档
任务粒度	任务级——“按计划实现Step 3”
上下文管理	CLAUDE.md + spec文档
质量保障	AI自行跑测试，人只看结果

Steve Yegge的8级模型里，这一层对应第4到第5级：开发者不再逐行审查AI写的每行代码，而是看着AI在干什么——关注方向是否正确，而不是每行代码写得对不对。

这一层最核心的转变是什么？是你从"写代码的人"变成了"指挥写代码的人"。

Addy Osmani有一段精辟的总结：

“最好的成果来自于你把经典的软件工程纪律施加到AI协作上。设计优先于编码、编写测试、使用版本控制、维护规范——这些实践不止依然适用，在AI替你写一半代码的时候，反而更加重要。”

如何达到这一层

三个关键动作：

第一，学会写规格，而不是写提示词。

van Hees话说得很重：“脱离上下文工程的提示词工程，就是装模作样。你在用竹子造的跑道，等一架永远不会来的货机。”

一份合格的spec不必复杂，但需要包含：

目标：一句话说清要达成什么
边界：哪些文件/模块在范围内，哪些不在
接口契约：函数签名、API格式
验收标准：怎么判断任务完成
回退方案：搞砸了怎么办

第二，小步快跑，不要一口吞天。

Addy Osmani反复强调这一点。别让AI一次性生成整坨代码，要把工作拆成小任务，逐个击破。每完成一个就提交一次Git，跑一次测试。

用Claude Code时，结合Superpowers工作流：

/plan 实现用户登录功能，需要支持微信OAuth和GitHub OAuth

它会自动拆分成可执行的步骤，然后你一步一步推进。

第三，频繁提交，拿Git当安全绳。

Osmani的原话：把commit当成游戏里的存档点。AI搞砸了？回滚到上一个存档。Boris的做法更极致——用Git Worktree给每个任务创建独立的工作区，彼此隔离：

终端 1（worktree: feature-login） → 实现登录功能
终端 2（worktree: fix-bug-123）   → 修bug
终端 3（worktree: add-tests）     → 写测试

每个终端跑一个Claude Code实例，各自独立，互不干扰。

这一层的天花板

到了这里，你已经比84%的开发者强了。可你依然是一个人在指挥一个AI。

问题随之而来：一个Claude Code实例一次只能做一件事。要是你有5个任务需要齐头并进呢？

这就是Boris所说的"五线并行"——在终端里同时开启5个Claude实例。但这依然是手动管理。5个你盯得过来，10个呢？20个呢？

这时你就需要跨进第三重了。

第三重境界：指挥AI军团

你在干的事情

你不再写代码了。精准一点说，你不需要亲手写任何一行代码，也能让软件被建造出来。

你做的事变成了：写规格文档，把任务分派给不同的AI Agent，监控它们的执行状态，审查最终成果。代码全是AI之间协作的产物。

这个层次的特征

维度	表现
交互方式	规格驱动，多Agent自主执行
AI角色	开发团队
任务粒度	项目级——“把这个系统重构完”
上下文管理	多Agent共享规格 + 自动同步
质量保障	Agent间交叉验证 + 自动化流水线

这已经不是科幻。2025年7月14日，StrongDM组建了一支AI团队，只定下三条规则：

代码不能由人类编写
代码不能由人类审查
仓库里只允许存放三个Markdown规格文件，以及零行人类代码

他们的成本呢？每个工程师每天1000美元的token费用。但产出效率惊人——代码完全由AI生成，由AI审查，由AI测试。

Simon Willison（Django联合创始人）看完他们的演示后写了专题文章，Dan Shapiro把这种模式称作**“暗黑工厂”**——一个无人写代码、无人审代码的软件制造体系。

并非人人都需要这一层

先泼一盆冷水。这一层潜藏着严峻的风险：

法律真空——斯坦福法学院CodeX项目明确指出，目前尚无任何法律框架覆盖"完全由AI编写和审查的代码"的责任归属。

知识衰退——当没有人类阅读代码库时，团队对系统的理解会快速退化。代码能跑，但没人知道为什么能跑。

循环验证困境——AI审查AI的输出，本质上是在同一个认知局限里打转。系统性的偏见与缺陷极难被察觉。

ThoughtWorks已在技术雷达中将"AI编码Agent团队"列为"评估"阶段——值得探索，但不建议在生产环境大规模使用。Gartner预测，到2027年底将有40%的AI Agent项目被取消。

如何朝这一层靠拢

不一定要一步跨进暗黑工厂。但有些能力你现在就能开始培养：

1. 学会拆任务——这是核心技艺。

不是"帮我写个登录页"这种拆法。而是把一个项目拆成独立、可验证、互不冲突的子任务。

一个好任务必须满足四个条件：

涉及的文件范围有限
有现成的测试可以验证
不需要跟其他进行中的任务协调
一条Git命令就能回滚

2. 利用Claude Code的Agent系统进行初步编排。

Claude Code本身就支持Subagent——你可以派一个Agent去探索代码库，另一个Agent去写代码，第三个Agent做代码审查。它们各自享有独立的上下文窗口，互不打扰。

Agent 1（Explore）    → 梳理现有架构
Agent 2（Code Review） → 审查Agent 3的产出
Agent 3（General）     → 按spec实现功能

三个Agent并行作业，你只负责协调和最终验收。

3. 搭建验证基础设施。

到了这一层，验证变成了最要命的瓶颈。你必须拥有：

高覆盖率的自动化测试
健全的CI/CD流水线
每个Agent的产出都有明确可量化的验收标准

Osmani的六步生产线模型：Plan → Spawn → Monitor → Verify → Integrate → Retro。其中Verify已经取代Generate，成为新的瓶颈所在。

你身处哪个境界？

一份简单的自测表，每个问题0-2分（从不=0，偶尔=1，经常=2）：

#	问题	分数
1	你每天使用AI代码补全或聊天
2	你会在让AI写代码前先写规格文档
3	你主要在终端/CLI里与AI协作，而非在IDE里
4	你同时运行2个以上的AI Agent处理不同任务
5	你的团队有共享的CLAUDE.md或AGENTS.md

0-3分：第一重。 你在用AI加速编码，但思维模式没有变。建议从写CLAUDE.md和spec文档开始。

4-6分：第二重。 你已经学会让AI自主执行任务，但仍是单线程。试试Git Worktree + 多终端并行。

7-10分：第三重。 你在编排多个AI Agent，或已在构建自己的编排系统。请重点关注验证基础设施和成本控制。

到评论区说说你的分数？我先亮牌：6分，正卡在第二重挣扎。

你觉得三重境界里，哪一层的开发者最危险？
A. 第一层——用AI但不会用，越用越慢
B. 第二层——觉得自己会用了，其实还在手动管理
C. 第三层——完全依赖AI，代码谁也看不懂

选一个字母留在评论区，我等着看大家的选择。

我的判断

说实话，这三重境界并不是直线递进的。不是到了第三层就一定比第一层高明。

大多数项目，走到第二层就完全够了。你把需求理清楚，把spec写扎实，让Claude Code按计划执行，自己负责最终审查——这个效率已经远远超过纯手工编码。Boris本人30天259个PR的纪录，靠的就是第二层的方法论。

第三层是为特定场景设计的：大型代码库的批量重构、测试覆盖率拉升、文档自动生成等可以高度并行化的任务。微软内部有个项目叫Societas，产出了11万行代码，98%由AI生成。但支撑那个规模的前提，是完备的编排基础设施。

Anthropic自己的工程团队有一个数据让我印象很深：Claude Code目前大约90%的代码，是由Claude Code自己写出来的。但请注意，是"写代码"这个环节由AI完成，而架构决策、需求拆解、质量把控——这些始终是人类工程师在做。

工具早已进化到Level 5。你的思维在哪一层？

这才是真正需要回答的问题。

参考资料

Peter van Hees, AI Developer Maturity Framework: 5 Levels to Orchestrator, 2026.03
Steve Yegge / Augment Code, 8 Levels of AI-Assisted Development, 2026.04
Addy Osmani, My LLM Coding Workflow Going Into 2026, 2026.01
METR, Measuring the Impact of AI on Experienced Developer Productivity, 2025.07
Simon Willison, How StrongDM’s AI Team Build Software Without Looking at Code, 2026.02
Google DORA, DORA Report 2024, 2024
Stanford CodeX, Built by Agents, Tested by Agents, Trusted by Whom?, 2026.02