Claude Code游戏工作室:49个AI Agent如何重塑独立游戏开发全流程
小金开始接触编程时,心里一直埋着一个种子:将来要独立做出一款像样的游戏。AI 赋能的时代看似让这个愿望触手可及,但一个人用 AI 开发游戏,听起来很美——直到你真正踏入这条路。
第一天信心十足,让 AI 帮你写角色移动逻辑。第二天想加个战斗系统,结果它把前一天搭好的代码结构彻底推翻了。到第三天你猛然发现,没有任何设计文档,没有 QA 验收,甚至没人帮你检查一下“这个怪物的数值是不是设计得太离谱了”。
**一个人做游戏最折磨人的地方,是缺少把关者。**没有策划站出来说“这个设计不合理”,没有测试指出“这里有个必现 Bug”,没有美术提醒“这个配色方案看着难受”。你既是导演又是演员,既是程序员又是 QA,结果每个环节都难以做到足够好。
小金最近发现了一个硬核的开源项目——Claude Code Game Studios。它用 49 个专业 Agent 搭建起一个完整的游戏开发工作室,有总监、有部门负责人、有垂直领域的专家,各司其职。

即使你目前不打算做游戏,这个项目背后的思路和经验也值得你抽出时间仔细研究。本文将近 7000 字,读完你会清晰掌握下面四个核心问题:
- 49 个 Agent 的协作分工模式:三层层级架构的设计逻辑,以及为什么要这样划分
- 72 个工作流技能覆盖了什么:从头脑风暴到正式上线的全链路工具
- 12 个 Hook 和 11 条规则如何守护代码质量:自动化安全与编码标准的工程化方案
- 这套体系适合什么样的开发者:哪些场景值得采用,哪些场景完全用不着
项目要解决的根本问题
Claude Code Game Studios 的核心理念可以用一句话概括:你仍然做出每一个决策,但现在有一整个团队帮你问对关键问题、提早暴露错误、从第一次头脑风暴直到发布全程保持项目不失控。
它不是一个自动驾驶系统。每个 Agent 都遵循一套严格的协作协议:先提问,再给出方案选项,你来拍板,Agent 输出草稿,你审批之后才会最终写入。
这与传统的“AI 写代码”模式完全不同。传统模式下,你下一条指令,AI 直接输出结果。而 Claude Code Game Studios 更像一个真实的游戏工作室——创意总监不会直接写代码,程序员不会擅自修改美术资源,QA 不会跳过测试流程。
工作室层级架构:三层分工的设计逻辑
49 个 Agent 并不是简单地堆叠在一起,而是按照真实游戏工作室的组织架构分成三层。这个设计的背后,藏着清晰的工程考量。


第一层:总监级(Tier 1 — Directors)
这一层只有三个角色:创意总监、技术总监、制作人。
为什么只设三个?因为总监的核心职责就两件事:守护方向和做出裁决。创意总监把控游戏的整体愿景,技术总监把控架构方向,制作人负责协调跨部门冲突与项目进度。
有一个容易被忽略的设计细节:这三个总监角色建议使用 Opus 模型来扮演。原因很直接——总监需要理解全局上下文、权衡多方诉求、做出战略性判断,这对模型的推理深度要求最高,用 Opus 性价比最合理。
第二层:部门负责人(Tier 2 — Department Leads)
这一层包含八个角色,覆盖了游戏开发的核心领域:
| 角色 | 职责范围 |
|---|---|
| 游戏设计师 | 玩法机制、系统设计 |
| 首席程序员 | 技术架构、代码规范 |
| 美术总监 | 视觉风格、资源标准 |
| 音频总监 | 音效、音乐、配音 |
| 叙事总监 | 剧情结构、世界观 |
| QA 负责人 | 测试策略、质量标准 |
| 发布经理 | 版本管理、上线流程 |
| 本地化负责人 | 多语言适配 |
部门负责人建议使用 Sonnet 模型。他们需要深入理解各自领域的专业知识,并协调手下专家的工作,但不需要像总监那样做全局性的战略判断。
第三层:专家级(Tier 3 — Specialists)
这一层数量最多,大概 20 多个角色,每个都是具体领域的执行者:游戏玩法程序员、引擎程序员、AI 程序员、网络程序员、关卡设计师、UI 程序员、音效设计师、技术美术、性能分析师、安全工程师……
专家级可以使用 Sonnet 或 Haiku 模型,因为他们做的事情更聚焦:执行具体任务、按规范写代码、完成分配好的子任务。用 Haiku 能显著降低成本,而对这类任务的完成质量影响不大。
引擎专家:三选一
项目内置了三大引擎的专家 Agent 集合:

你只需要启用与自己项目匹配的那一组就行。
为什么要这样分层
这个三层架构的本质是解决两个问题:
**第一,控制上下文爆炸。**如果把 49 个 Agent 平铺在一个层级里,每次协作时模型都需要理解所有角色的职责,上下文窗口根本容纳不下。分层之后,每一层只需理解自己层级的职责以及与上下级的接口。创意总监不需要知道 AI 程序员在用什么寻路算法,AI 程序员也不需要操心整体的剧情走向。

**第二,控制推理成本。**每个决策都动用 Opus 级别的推理能力太浪费了。一个“检查 JSON 格式是否正确”的任务,用 Haiku 就足够了,根本不用 Opus。三层架构天然匹配了模型能力的梯度分配。
Agent 之间的协作规则
光有层级还不够,Agent 之间如何协作才是关键。Claude Code Game Studios 定义了五条协作规则:

- **垂直委派。**总监向部门负责人下达任务,部门负责人再向专家分配工作,不跳级指挥。创意总监不会直接指挥一个 UI 程序员,而是先跟首席程序员沟通,由首席程序员来安排。
- **同级咨询。**同一层级的 Agent 可以互相请教,但不能越权做跨领域决策。游戏设计师可以问关卡设计师某个关卡的设计是否合理,但不能替关卡设计师做决定。
- **冲突升级。**遇到意见分歧时,往上走到共同上级那里裁决。设计类的争议找创意总监,技术类的争议找技术总监。这跟真实工作室处理分歧的方式一模一样。
- **变更传播。**跨部门的改动由制作人统一协调。比如战斗系统改动了,会影响音效、UI 和网络同步,制作人负责把变更信息同步到所有相关部门。
- **领域边界。**Agent 不能修改自己领域之外的文件,除非被明确授权。这条规则防止 Agent 之间互相踩脚。
你可能已经意识到:这不就是一套组织管理规范吗?确实是。但恰恰是这套规范,让 49 个 Agent 不至于变成一锅粥。没有规则的团队,人越多越混乱,AI 也一样。
72 个工作流技能:从想法到上线的完整链路
Agent 是“谁”,Skill 是“怎么干”。72 个斜杠命令覆盖了游戏开发的全生命周期,按阶段可以分成以下几个组:

入门与导航
/start 是整个系统的入口。它会先询问你项目当前处于什么阶段——是完全没有想法,还是已经有了模糊概念,还是设计文档已经写好,或是已经有代码在跑了。根据你的回答,引导你进入对应的工作流。
这比一上来就直接“帮我写代码”要合理得多。一个不知道自己在哪里的项目,大概率也走不到终点。
其他导航类技能包括 /help(查看所有可用技能)、/project-stage-detect(自动分析项目当前阶段)、/setup-engine(配置引擎环境)。
游戏设计
从 /brainstorm 开始头脑风暴,到 /map-systems 梳理系统关系,再到 /design-system 制作详细的系统设计文档。还有 /quick-design 做快速设计原型、/review-all-gdds 审查所有设计文档、/propagate-design-change 在设计变更时同步更新所有受影响的文档。
设计阶段的核心价值在于:强迫你在写代码之前先把想法想清楚。这恰恰是独立开发者最容易跳过的一步。
架构与工程
/create-architecture 创建项目架构,/architecture-decision 记录架构决策(ADR),/architecture-review 审查架构方案,/create-control-manifest 生成控制清单。
架构决策记录这个东西,很多人觉得是“大团队才需要的仪式感”。但真正做过项目的人都明白,三个月后你再回头看自己写的代码,完全不记得当时为什么选了方案 A 而不是方案 B。ADR 的真正价值是迫使你在做决策那一刻就把理由写下来。
故事与迭代
这组技能实现了一套轻量级的项目管理流程:
/create-epics— 把需求拆分成 Epic/create-stories— 把 Epic 拆分成具体的 Story/sprint-plan— 做 Sprint 计划/dev-story— 开始开发某个 Story/story-done— 标记 Story 完成
流程不算新鲜,新鲜的是每个环节都有对应的 Agent 来把关。开发一个 Story 时,有程序员 Agent 写代码、QA Agent 做测试、设计 Agent 做审查,你不需要一个人闷头苦干。
团队编排
这是最有意思的一组技能。/team-combat、/team-narrative、/team-ui、/team-release 等命令可以一次性协调多个 Agent 共同完成一个功能。
比如 /team-combat 会同时协调游戏设计师(设计战斗机制)、程序员(实现战斗逻辑)、音效设计师(添加战斗音效)、特效美术(制作战斗特效)协同工作。多个 Agent 按照协作规则协调行动,跟简单的并行完全是两回事。
质量保障
QA 相关的技能非常丰富:/qa-plan(测试计划)、/smoke-check(冒烟测试)、/soak-test(压力测试)、/regression-suite(回归测试)、/test-evidence-review(测试证据审查)、/test-flakiness(检测不稳定测试)。
这组技能的设计理念很务实:测试不是上线前才做的事,而是贯穿整个开发过程的质量保障。每个 Story 完成时都有对应的测试验收,不通过的不能标记为 Done。
审查与发布
/design-review(设计审查)、/code-review(代码审查)、/balance-check(数值平衡检查)、/scope-check(范围检查)、/gate-check(阶段门禁检查)。发布阶段的 /release-checklist(发布清单)、/launch-checklist(上线清单)、/changelog(更新日志)、/hotfix(紧急修复)。
12 个 Hook:自动化的安全网
Agent 和 Skill 是“主动式”的工具,你需要时调用它们。Hook 则是“被动式”的安全机制,在特定时刻自动触发,不需要你记得去做。

其中几个 Hook 的设计思路值得单独展开说明。
validate-commit.sh 是最实用的一个。它会在每次 git commit 之前自动检查:代码里有没有硬编码的魔法数字、TODO 注释格式是否规范、JSON 文件是否有效、设计文档是否包含必要的章节。这些检查项看起来琐碎,但恰恰是这些微小的问题,在项目后期会累积成巨大的麻烦。
detect-gaps.sh 解决的是一个很常见的场景:你打开一个已经有部分代码的项目,却没有任何设计文档。这个 Hook 会检测到这种不一致,提醒你先补齐设计文档再继续开发。先想清楚再动手,不是教条,是经验。
session-start.sh 和 session-stop.sh 这对 Hook 组成了一套会话管理机制。开始时告诉你上次干到哪儿了,结束时把本次进度归档。对于经常中断又恢复的独立开发者来说,这个功能能省下大量“回顾上下文”的时间。
所有 Hook 都遵循一个重要设计原则:如果可选的依赖工具(比如 jq、Python 3)不存在,Hook 不会报错中断,而是静默跳过。不会因为缺少一个检查工具就把你的工作流卡死。
11 条路径规则:按目录自动执行的编码标准
Claude Code Game Studios 还定义了一套路径作用域规则(Path-Scoped Rules)。这些规则根据你编辑的文件路径自动生效,不需要你刻意去遵守。


这套规则有意思的地方在于,颗粒度细致到了目录级别。同样是“写代码”,在 src/gameplay/ 下写的代码和在 src/core/ 下写的代码,适用完全不同的标准。游戏逻辑强调数据驱动和帧率无关,核心引擎代码强调零分配和线程安全。看得出来,写这些规则的人真的做过游戏开发。
项目结构:比代码更重要的是组织方式
Claude Code Game Studios 生成项目的目录结构:
CLAUDE.md # 主配置文件
.claude/
settings.json # Hook、权限、安全规则
agents/ # 49 个 Agent 定义
skills/ # 72 个斜杠命令
hooks/ # 12 个 Hook 脚本
rules/ # 11 条路径规则
docs/
workflow-catalog.yaml # 7 阶段工作流定义
templates/ # 39 个文档模板
src/ # 游戏源代码
assets/ # 美术、音频、特效、数据文件
design/ # GDD、叙事文档、关卡设计
docs/ # 技术文档和架构决策记录
tests/ # 测试套件
tools/ # 构建和管线工具
prototypes/ # 一次性原型(与 src/ 隔离)
production/ # Sprint 计划、里程碑、发布追踪
注意 prototypes/ 和 src/ 是隔离的。这个设计直接回答了一个真实问题:**原型代码不应该混入正式项目。**原型是用来验证想法的,允许脏代码、允许硬编码、允许不规范,但正式代码不行。把两者放在不同目录下,通过不同的规则约束,是很成熟的工程实践。
39 个文档模板也是一个容易被忽略的亮点。从游戏设计文档(GDD)到 UX 规范、架构决策记录、Sprint 计划、HUD 设计、无障碍设计,每种文档都有标准化模板。模板真正的用处是告诉你“一份完整的设计文档应该包含哪些内容”。很多时候你不是写不好,而是不知道该写什么。
如何上手
整个过程分为三步:
# 第一步:克隆项目
git clone https://github.com/Donchitos/Claude-Code-Game-Studios.git my-game
cd my-game
# 第二步:确保 Claude Code 已安装
npm install -g @anthropic-ai/claude-code
# 第三步:启动 Claude Code,输入 /start
/start 命令会引导你走完初始配置:选引擎、设项目名称、确定当前阶段。之后根据引导逐步推进就行。
如果你想直接跳到某个具体环节,也可以这样:
/brainstorm— 从零开始探索游戏创意/setup-engine godot 4.6— 直接配置引擎/project-stage-detect— 分析已有项目
前置条件是 Git 和 Claude Code,可选依赖是 jq(用于 Hook 验证)和 Python 3(用于 JSON 验证),没装也不影响核心功能。
设计哲学的底层逻辑
Claude Code Game Studios 的设计并不是拍脑袋想出来的,背后有几套成熟的游戏设计理论在支撑:
MDA 框架:机制(Mechanics)、动态(Dynamics)、美学(Aesthetics)。这是游戏设计分析的经典框架。机制是你设计的规则,动态是玩家在游戏中产生的行为模式,美学是玩家的情感体验。三个层次从底层到顶层,帮你从“规则设计”推导到“玩家体验”。
自我决定理论:自主性(Autonomy)、胜任感(Competence)、关联性(Relatedness)。用来分析玩家动机。玩家为什么愿意持续玩你的游戏?因为他们在游戏里能自己做决定(自主)、感到自己在变强(胜任)、与他人产生连接(关联)。
心流理论:挑战和技能的平衡。太难了会焦虑,太简单了会无聊,难度刚好就是心流。这是游戏数值平衡的理论基础。
Bartle 玩家类型:将玩家分为探索者、成就者、社交者、杀手四类,帮助你在设计阶段就想清楚“我的游戏是给哪类玩家玩的”。
这些理论都嵌入了设计审查和数值平衡检查的 Agent 逻辑里。当你运行 /balance-check 时,Agent 不只是检查数字是否合理,还会从这些理论框架出发分析你的设计是否存在结构性问题。
三种审查模式:适配不同规模的团队
项目提供了三种审查强度,在 /start 时选择,也可以通过编辑 production/review-mode.txt 调整,甚至可以在单次执行时通过 --review solo 覆盖。
| 模式 | 适用场景 | 行为 |
|---|---|---|
| full | 正式项目,追求高质量 | 所有总监级门禁全部执行 |
| lean | 中等项目,追求效率 | 只在阶段转换时执行门禁 |
| solo | 快速原型,追求速度 | 跳过所有审查 |
这个设计的核心考量在于:流程必须匹配项目的实际需要。做一个 Game Jam 作品和做一个商业项目,质量要求截然不同。三种模式让你能在“速度”和“质量”之间找到最合适的平衡点。
局限性
谈了这么多优点,也必须坦诚地聊聊不足和需要注意的地方。
**第一,Agent 不等于真人。**无论 Agent 的角色定义多么详尽,它终究是在执行提示词。它不会像真正的创意总监那样突然灵光一闪提出一个惊艳的方案,也不会像真正的 QA 那样凭借直觉发现一个深藏在边界条件里的 Bug。Agent 提供的是结构和专业视角,不是创造力和直觉。
**第二,49 个 Agent 的上下文管理是个挑战。**虽然分层设计缓解了上下文爆炸的问题,但在复杂项目中,总监级 Agent 仍然需要理解大量的项目上下文才能做出合理决策。上下文窗口的限制意味着,随着项目规模增长,Agent 的决策质量可能会下降。项目内置的压缩 Hook(pre-compact/post-compact)能在一定程度上缓解这个问题,但不能根治。
**第三,学习曲线不低。**这不是一个装上就能用的工具。你需要理解 Agent 的分工逻辑、Skill 的工作流、Hook 的触发时机、Rules 的约束范围。如果不花时间彻底搞清这些,很容易把 49 个 Agent 用成 49 个普通的聊天窗口,完全发挥不出分层协作的价值。
**第四,模型成本不便宜。**如果你严格按照推荐配置,总监用 Opus、部门负责人用 Sonnet、专家用 Haiku,一个中等复杂度的游戏项目,模型调用成本可能不低。尤其在设计阶段和审查阶段,Opus 的频繁调用会是一笔不小的开支。好在审查模式可以调整,solo 模式下可以跳过所有审查,省下这部分成本。
总结
Claude Code Game Studios 最有价值的洞察是:一个人做游戏的瓶颈在于缺乏结构化的协作体系和质量保障流程,而不是代码能力不够。
它把一个真实游戏工作室的组织方式——层级分工、领域边界、冲突升级、变更传播——翻译成了一套 AI Agent 可以执行的协作规则。再加上 72 个覆盖完整开发周期的技能、12 个自动触发的安全 Hook、11 条按目录自动执行的编码标准,形成了一套从想法到上线的完整工程体系。
- 适合的场景:独立游戏开发者想用 AI 辅助完成从设计到上线的全流程;小型团队(1-3 人)需要结构化的开发流程但请不起完整的职能团队;有游戏开发经验但缺少某个领域专家(比如缺一个音效设计师或 QA)的开发者。
- 不太适合的场景:纯新手,你需要对游戏开发有一定理解才能驾驭这套体系;只用 AI 写几段代码的小项目,杀鸡用牛刀;已经有一套成熟工作流的大团队,你们的流程可能比这套模板更成熟。
这套体系的底层逻辑跟 Harness Engineering 的思路一致:模型负责思考和决策,Harness 负责提供手脚和边界。Claude Code Game Studios 本质上是一个高度定制化的游戏开发 Harness,它把“怎么用 AI 做游戏开发”这个问题,从“给我一个聪明的 AI”升级到了“给我一个结构化的 AI 团队”。
项目地址:https://github.com/Donchitos/Claude-Code-Game-Studios