Claude Code用户的三重境界:你是抄代码的,还是指挥AI军团的?附自测表
王国维在《人间词话》里提到,古今之成大事业者,必经三种境界。文学我不在行,但混了一段时间AI编程社区之后,我发现AI编程这件事同样存在三重境界——可惜绝大多数人卡在第二层,还浑然不觉。
先看两组数字让你清醒一下:84% 的开发者已经用上了AI编程工具。可独立评估机构METR的一项对照实验显示,让16位经验丰富的程序员用AI完成246个任务时——他们反倒慢了19%。
更黑色幽默的是,这些参与者自认为快了20%。
工具越来越强,人类反而越干越慢,还自我感觉良好。毛病不在工具上,在思维模式上。
你觉得自己用上AI之后,是快是慢?到留言区坦白交代吧。
我用Claude Code做了大半年的日常开发,又参考了Google的Addy Osmani、Steve Yegge、Peter van Hees等人总结的AI编程成熟度模型,加上Claude Code创建者Boris的亲传心法,消化下来,将整个演进路径简化成三层境界。
不多不少,就三层。多了你记不住,也没那个必要。
第一重境界:让AI替你写代码
你目前的做法
打开IDE,装好Copilot或Cursor,AI开始在光标后面弹出灰色代码提示。你按Tab采纳,Esc拒绝。偶尔打开侧边对话窗口,丢一句"帮我写个解析JSON的函数",然后把生成的代码粘进工程里。
也可能你已经用上了Claude Code,但使用方式还是老一套:打开终端,给一句含糊的需求,等AI吐出代码,瞄一眼能编译就算通过。
这个层次的特征
| 维度 | 表现 |
|---|---|
| 交互方式 | 提示词驱动,想到哪儿问到哪儿 |
| AI角色 | 高级键盘,打字加速器 |
| 任务粒度 | 功能级——“帮我写个登录页” |
| 上下文管理 | 基本不管,让AI自己猜 |
| 质量保障 | 能编译即可 |
Peter van Hees把这类人称为"提示员"和"计划员"——AI在你手里就是个打字加速器。把需求往聊天框一扔,AI甩回来一坨代码,你复制粘贴、改改就上线。
这一层有毛病吗?没有。尤其在写CRUD、生成样板代码、查API语法的时候,确实能省下不少时间。
但问题恰恰在于,84%的开发者都停在原地。
Google DORA 2024研究里有一条扎心的结论:AI采用率每提高25%,交付速度反而下降1.5%,系统稳定性下降7.2%。AI协作提交的Pull Request,出问题的概率是人类独立完成的1.7倍。
为什么会这样?因为这一层有一个致命伤——van Hees称之为**“上下文近视”**。
你的每一条提示词都是孤立的。AI不知道你的系统架构长什么样,不知道上周你为什么选了方案A而不是方案B,不知道哪些模块之间存在隐藏的依赖。它只能看见当前这段对话,然后从统计概率最高的选项里挑一个答案递给你。
Addy Osmani概括得直截了当:
“如果你给LLM一个含糊的需求,让它直接开写,它很可能产出一段’十个开发者在零沟通的情况下各写各的’风格的代码——逻辑重叠,架构混乱,连方法命名都对不上。”
怎么判断自己在这一层
问自己一个问题:上一次你让AI写代码之前,先动手写过一份规格说明文档,是什么时候?
如果答案是"从来没写过"——恭喜,你就在这一层。
突破的方法
不是让你去啃什么高深的提示词工程。核心只有一条:在动手写代码之前,先把需求想透。
用Claude Code的话,可以这样起步:
我想做一个用户登录模块。在开始写代码之前,请先问我问题,
直到你完全理解所有细节为止。然后把讨论结果整理成 spec.md。
这一步看起来慢,实际上省下的调试时间比你想象的多得多。Addy Osmani管这叫"15分钟内的瀑布"——快速的结构化规划,让后面的编码顺畅无比。
一旦你开始在Claude Code里维护CLAUDE.md文件,开始为项目写规格文档,开始在让AI写代码之前先写好测试——你就已经望向第二层了。
第二重境界:让AI替你干活
你正在做的事情
你不再去IDE的聊天侧边栏闲聊了。你直接打开终端,跟Claude Code对话,告诉它"按spec.md实现Step 3",然后它自己读文件、改代码、跑测试、修Bug,你只需要在旁边盯着。
用Boris(Claude Code创建者)的话说——他30天完成了259个PR,每一行代码都由AI亲自编写。
这个层次的特征
| 维度 | 表现 |
|---|---|
| 交互方式 | 目标驱动,AI自主执行 |
| AI角色 | 结对编程搭档 |
| 任务粒度 | 任务级——“按计划实现Step 3” |
| 上下文管理 | CLAUDE.md + spec文档 |
| 质量保障 | AI自行跑测试,人只看结果 |
Steve Yegge的8级模型里,这一层对应第4到第5级:开发者不再逐行审查AI写的每行代码,而是看着AI在干什么——关注方向是否正确,而不是每行代码写得对不对。
这一层最核心的转变是什么?是你从"写代码的人"变成了"指挥写代码的人"。
Addy Osmani有一段精辟的总结:
“最好的成果来自于你把经典的软件工程纪律施加到AI协作上。设计优先于编码、编写测试、使用版本控制、维护规范——这些实践不止依然适用,在AI替你写一半代码的时候,反而更加重要。”
如何达到这一层
三个关键动作:
第一,学会写规格,而不是写提示词。
van Hees话说得很重:“脱离上下文工程的提示词工程,就是装模作样。你在用竹子造的跑道,等一架永远不会来的货机。”
一份合格的spec不必复杂,但需要包含:
- • 目标:一句话说清要达成什么
- • 边界:哪些文件/模块在范围内,哪些不在
- • 接口契约:函数签名、API格式
- • 验收标准:怎么判断任务完成
- • 回退方案:搞砸了怎么办
第二,小步快跑,不要一口吞天。
Addy Osmani反复强调这一点。别让AI一次性生成整坨代码,要把工作拆成小任务,逐个击破。每完成一个就提交一次Git,跑一次测试。
用Claude Code时,结合Superpowers工作流:
/plan 实现用户登录功能,需要支持微信OAuth和GitHub OAuth
它会自动拆分成可执行的步骤,然后你一步一步推进。
第三,频繁提交,拿Git当安全绳。
Osmani的原话:把commit当成游戏里的存档点。AI搞砸了?回滚到上一个存档。Boris的做法更极致——用Git Worktree给每个任务创建独立的工作区,彼此隔离:
终端 1(worktree: feature-login) → 实现登录功能
终端 2(worktree: fix-bug-123) → 修bug
终端 3(worktree: add-tests) → 写测试
每个终端跑一个Claude Code实例,各自独立,互不干扰。
这一层的天花板
到了这里,你已经比84%的开发者强了。可你依然是一个人在指挥一个AI。
问题随之而来:一个Claude Code实例一次只能做一件事。要是你有5个任务需要齐头并进呢?
这就是Boris所说的"五线并行"——在终端里同时开启5个Claude实例。但这依然是手动管理。5个你盯得过来,10个呢?20个呢?
这时你就需要跨进第三重了。
第三重境界:指挥AI军团
你在干的事情
你不再写代码了。精准一点说,你不需要亲手写任何一行代码,也能让软件被建造出来。
你做的事变成了:写规格文档,把任务分派给不同的AI Agent,监控它们的执行状态,审查最终成果。代码全是AI之间协作的产物。
这个层次的特征
| 维度 | 表现 |
|---|---|
| 交互方式 | 规格驱动,多Agent自主执行 |
| AI角色 | 开发团队 |
| 任务粒度 | 项目级——“把这个系统重构完” |
| 上下文管理 | 多Agent共享规格 + 自动同步 |
| 质量保障 | Agent间交叉验证 + 自动化流水线 |
这已经不是科幻。2025年7月14日,StrongDM组建了一支AI团队,只定下三条规则:
- 代码不能由人类编写
- 代码不能由人类审查
- 仓库里只允许存放三个Markdown规格文件,以及零行人类代码
他们的成本呢?每个工程师每天1000美元的token费用。但产出效率惊人——代码完全由AI生成,由AI审查,由AI测试。
Simon Willison(Django联合创始人)看完他们的演示后写了专题文章,Dan Shapiro把这种模式称作**“暗黑工厂”**——一个无人写代码、无人审代码的软件制造体系。
并非人人都需要这一层
先泼一盆冷水。这一层潜藏着严峻的风险:
法律真空——斯坦福法学院CodeX项目明确指出,目前尚无任何法律框架覆盖"完全由AI编写和审查的代码"的责任归属。
知识衰退——当没有人类阅读代码库时,团队对系统的理解会快速退化。代码能跑,但没人知道为什么能跑。
循环验证困境——AI审查AI的输出,本质上是在同一个认知局限里打转。系统性的偏见与缺陷极难被察觉。
ThoughtWorks已在技术雷达中将"AI编码Agent团队"列为"评估"阶段——值得探索,但不建议在生产环境大规模使用。Gartner预测,到2027年底将有40%的AI Agent项目被取消。
如何朝这一层靠拢
不一定要一步跨进暗黑工厂。但有些能力你现在就能开始培养:
1. 学会拆任务——这是核心技艺。
不是"帮我写个登录页"这种拆法。而是把一个项目拆成独立、可验证、互不冲突的子任务。
一个好任务必须满足四个条件:
- • 涉及的文件范围有限
- • 有现成的测试可以验证
- • 不需要跟其他进行中的任务协调
- • 一条Git命令就能回滚
2. 利用Claude Code的Agent系统进行初步编排。
Claude Code本身就支持Subagent——你可以派一个Agent去探索代码库,另一个Agent去写代码,第三个Agent做代码审查。它们各自享有独立的上下文窗口,互不打扰。
Agent 1(Explore) → 梳理现有架构
Agent 2(Code Review) → 审查Agent 3的产出
Agent 3(General) → 按spec实现功能
三个Agent并行作业,你只负责协调和最终验收。
3. 搭建验证基础设施。
到了这一层,验证变成了最要命的瓶颈。你必须拥有:
- • 高覆盖率的自动化测试
- • 健全的CI/CD流水线
- • 每个Agent的产出都有明确可量化的验收标准
Osmani的六步生产线模型:Plan → Spawn → Monitor → Verify → Integrate → Retro。其中Verify已经取代Generate,成为新的瓶颈所在。
你身处哪个境界?
一份简单的自测表,每个问题0-2分(从不=0,偶尔=1,经常=2):
| # | 问题 | 分数 |
|---|---|---|
| 1 | 你每天使用AI代码补全或聊天 | |
| 2 | 你会在让AI写代码前先写规格文档 | |
| 3 | 你主要在终端/CLI里与AI协作,而非在IDE里 | |
| 4 | 你同时运行2个以上的AI Agent处理不同任务 | |
| 5 | 你的团队有共享的CLAUDE.md或AGENTS.md |
0-3分:第一重。 你在用AI加速编码,但思维模式没有变。建议从写CLAUDE.md和spec文档开始。
4-6分:第二重。 你已经学会让AI自主执行任务,但仍是单线程。试试Git Worktree + 多终端并行。
7-10分:第三重。 你在编排多个AI Agent,或已在构建自己的编排系统。请重点关注验证基础设施和成本控制。
到评论区说说你的分数?我先亮牌:6分,正卡在第二重挣扎。
你觉得三重境界里,哪一层的开发者最危险?
A. 第一层——用AI但不会用,越用越慢
B. 第二层——觉得自己会用了,其实还在手动管理
C. 第三层——完全依赖AI,代码谁也看不懂
选一个字母留在评论区,我等着看大家的选择。
我的判断
说实话,这三重境界并不是直线递进的。不是到了第三层就一定比第一层高明。
大多数项目,走到第二层就完全够了。你把需求理清楚,把spec写扎实,让Claude Code按计划执行,自己负责最终审查——这个效率已经远远超过纯手工编码。Boris本人30天259个PR的纪录,靠的就是第二层的方法论。
第三层是为特定场景设计的:大型代码库的批量重构、测试覆盖率拉升、文档自动生成等可以高度并行化的任务。微软内部有个项目叫Societas,产出了11万行代码,98%由AI生成。但支撑那个规模的前提,是完备的编排基础设施。
Anthropic自己的工程团队有一个数据让我印象很深:Claude Code目前大约90%的代码,是由Claude Code自己写出来的。但请注意,是"写代码"这个环节由AI完成,而架构决策、需求拆解、质量把控——这些始终是人类工程师在做。
工具早已进化到Level 5。你的思维在哪一层?
这才是真正需要回答的问题。
参考资料
- • Peter van Hees, AI Developer Maturity Framework: 5 Levels to Orchestrator, 2026.03
- • Steve Yegge / Augment Code, 8 Levels of AI-Assisted Development, 2026.04
- • Addy Osmani, My LLM Coding Workflow Going Into 2026, 2026.01
- • METR, Measuring the Impact of AI on Experienced Developer Productivity, 2025.07
- • Simon Willison, How StrongDM’s AI Team Build Software Without Looking at Code, 2026.02
- • Google DORA, DORA Report 2024, 2024
- • Stanford CodeX, Built by Agents, Tested by Agents, Trusted by Whom?, 2026.02