RTK开源工具:四层压缩策略化解Token焦虑,命令输出成本直降80%
不久前,一位开发者用 Claude Code 重构一个老项目,干了一下午,效果不错——代码改动完成,测试通过,Git 提交也正常进行。
但当他顺手查看 token 用量时,直接傻眼:一个下午竟然烧了 6000 多万 token,套餐余额告急。
明明只改了几十个文件,怎么消耗这么多?翻看对话历史才恍然大悟,真正的“罪魁祸首”根本不是自己写的代码,而是那些命令输出。
npm install跑一次,依赖树打印几百行;cargo test执行完,99% 的通过信息全是绿色文字;git status列出一堆 untracked 文件——这些内容全被原封不动地塞进了 LLM 的上下文窗口。
而 AI 真正需要的信息,可能只有 5%,剩下 95% 都是毫无价值的日志噪音。
如果您也遇到过类似的问题,那 **RTK(Rust Token Killer)**这个工具值得您花三分钟了解一下。

需要提前说明一下:RTK 的本质是做一种权衡——用更少的上下文,换取更低的成本。在大多数场景下,被压缩掉的都是“噪音”,对结果影响很小;但在极少数需要完整上下文的场景(比如复杂调试),或许需要手动查看原始输出。
本文接近 6000 字,建议收藏,通过本文您将掌握:
- RTK 的四层压缩策略:每种策略分别针对什么类型的命令输出,如何实施压缩
- Auto-Rewrite Hook 的工作机制:RTK 如何在不改动主循环的情况下透明拦截命令输出
- 真实的 token 节省数据与成本换算:省下来的 token 到底值多少钱
- 与其他省 token 方案的对比:不同场景该选用什么工具
RTK 是什么
RTK是一个用 Rust 编写的 CLI 代理工具,专门为 AI 编程助手设计。它的定位十分清晰:在命令输出到达 LLM 之前做一轮智能压缩,去除噪音,只保留信号。

用一句话概括它的设计哲学:您照常使用 Claude Code,照常执行命令,只是 token 消耗在不知不觉中降下来了。
因为是用 Rust 编写的,RTK 的启动延迟不到 10ms,内存占用不足 5MB,单一二进制文件,零依赖。这些特性意味着它几乎不会成为您工作流中的负担。
Screen Studio太贵?试试这款免费开源的录屏神器OpenScreen
Screen Studio 虽然被很多用户视为产品演示视频的首选,但 每月29美元的订阅费 让相当一部分人停下了尝试的脚步。

现在,OpenScreen 以开源替代方案的身份出现了:完全免费、零水印、允许商用,它整合了屏幕录制、手动缩放、裁剪、注释、背景美化等一系列核心能力——足以满足那些只想“做一条好看的产品演示”的朋友。

- Screen Studio:体验出色,但价格不菲
如果你曾制作过产品演示、技术教程,或者只是希望录出一段“漂亮”的屏幕视频,多半听说过 Screen Studio。它最吸引人的地方在于:
- 光标智能跟随与自动缩放:让观众的注意力始终聚焦在你操作的位置
- 丝滑流畅的动效:缩放、平移自然而顺畅
- 一键美化:通过背景、阴影、圆角等元素,瞬间打造“苹果风”质感
然而绕不开的成本是:$29/月或 $89 永久买断。对于偶尔录制一段视频的用户而言,这个定价确实有些高。
- OpenScreen:为谁而生?
OpenScreen 是一个开源的屏幕录制与美化工具,目标很明确——成为 Screen Studio 的“免费简化版”。
作者在项目里诚恳地写道:
“这不是 Screen Studio 1:1 的克隆。如果你需要全部高级功能,我建议去支持原版(他们做得真的非常出色)。但如果你只想要一个免费、开源、够用的工具,OpenScreen 就是为你准备的。”
2.1 主要亮点
| 特点 | 说明 |
|---|---|
| 完全免费 | 没有订阅,没有一次性购买,也没有隐藏消费 |
| 无水印 | 导出的视频干干净净,不带任何标记 |
| 开源 | 采用 MIT 协议,代码完全透明 |
| 支持商用 | 无论是个人项目还是商业用途,都放心使用 |
| 跨平台 | 同时支持 macOS、Windows 与 Linux |
- OpenScreen 能做什么?
3.1 录制功能
- 全屏录制:捕捉整个屏幕的内容
- 应用窗口录制:只录制你指定的某个应用窗口

3.2 编辑功能
完成录制后,OpenScreen 提供了一系列实用的编辑操作:
| 功能 | 说明 |
|---|---|
| 手动缩放(Zoom) | 自由添加缩放效果,并自定义深度、位置与时长 |
| 裁剪(Crop) | 将屏幕上不想展示的区域隐藏掉 |
| 片段修剪(Trim) | 剪掉视频中多余的部分 |
| 运动模糊(Motion Blur) | 让缩放和移动看起来更加平滑自然 |
| 注释(Annotations) | 轻松添加文字、箭头、图片等标注 |

Warp开源即爆火:Rust驱动的AI终端5万星深度解析与终端横评
Warp 已在 GitHub 正式开源,不到 10 小时便收获 3.2 万星,截至目前已突破 5.14 万星,这一数字在开发工具领域相当震撼。

Warp 本质上是一款功能极度丰富的现代终端,AI 能力只是锦上添花,但功能丰富的代价是资源占用在同品类中处于最重一档。 无论你是否使用它的 AI 功能,都需要接受约 200 MB 以上的内存占用。
AI 功能是否好用暂且不论,对绝大多数开发者来说,终端最核心的需求就两个字——快和稳。Warp 在基础性能上确实做得不错,即便关闭所有花哨功能,Block 模型带来的交互体验也让人很难再回到过去。不过,不少用户最近已开始评估切换至 Ghostty,后续我们会进行实测并分享体验。
本文接近 6500 字,建议收藏。阅读后你将深入了解:
- Warp 的四个核心设计:Block 模型、AI 原生集成、Agent 调度中心、自研 GPU UI 框架,各自解决了哪些痛点
- 为什么要开源:创始人给出的三个理由及其背后的商业逻辑
- 2026 年终端生态全景对比:Warp、Ghostty、Kitty、Alacritty、iTerm2 五款终端如何选择
- 真实使用体验与局限:长期用户踩过的坑
Warp 的诞生背景与定位
先说一下背景。Warp 的创始人 Zach Lloyd 来头不小,他曾是 Google 的首席工程师,参与并领导过 Google Sheets 相关工程,还担任过 TIME 的临时 CTO。2020 年,Zach 创办 Warp,希望从零重做每个开发者每天都会使用、但长时间缺乏变化的终端。
为什么是终端?因为在 Zach 看来,终端和代码编辑器一样,是几乎每个开发者每日必用的工具,但终端的核心交互模型已很久没有本质变化:输入命令、等待输出、滚动查看、再输入。Warp 官方也指出,现代终端本质上仍在模拟早期的物理终端,许多体验数十年如一日。

Warp 从 2020 年开始开发,主体采用 Rust 构建。2022 年 4 月,Warp 首次公开发布 macOS Beta;2023 年 3 月加入 Warp AI;2024 年 2 月正式登陆 Linux,随后扩展至 Windows;2026 年 4 月,Warp 正式宣布客户端开源。
WorkBuddy + DeepSeek V4:一键生成五一打卡清单,腾讯文档秒同步
五一假期出游的懒人福音来了!用AI工具WorkBuddy,一句话就能自动生成专属打卡清单,手机端直接查看,连攻略都不用自己翻。
没错,就算在人挤人的五一,我也没停下实战笔记的分享。其实这趟行程我提前就用AI全部安排好了,临行前轻松搞定,现在我人已经在路上了!
WorkBuddy刚完成一波更新,专家中心就悄悄上线了一个新角色——美团生活助手,还特别标注了“五一旅游推荐”,显然是专为假期准备的。

不用再自己去查零散的攻略,配合最新上线的DeepSeek V4模型,只需要一句自然指令,就能直接生成全套行程单。
调用专家与DeepSeek V4模型
迫不及待地想体验下?让专家中心的美团助手给我定制一份五一旅游规划,同时启用最新出炉的DeepSeek V4模型,看看能碰撞出怎样的火花。

只用一句话下发任务,行程规划瞬间呈现。

一键授权同步腾讯文档,告别电脑
难道出门还要背台笔记本?想把排好的行程分享给家人怎么办?别发愁,WorkBuddy刚刚打通了腾讯文档,提供一键授权连接,彻底解决这个痛点。

只需用手机扫一扫完成授权,腾讯文档的创建、编辑、查看、管理等权限就全部到位了,全程不需要打开电脑。
继续对着WorkBuddy说一句“把行程整理到腾讯文档”,剩下的事交给它。

搞定!行程已经自动写入新建的在线文档。

现在拿出手机,打开“腾讯文档”小程序,刚刚创建的行程文档就安静地躺在列表里。点开即可查看,还能直接转发到家庭群,全家人都能同步出行计划。

还能更进一步:秒变旅游打卡清单
眼下特种兵式打卡旅行不是很火吗?那就直接把行程单改造成“打卡清单”样式。

每完成一项就☑️划掉,旅途进度一目了然。

今天的实战笔记虽然短小精悍,但绝对干货。核心思路就是要把AI工具的能力压榨到极致——省下查攻略、做表格的时间,出发前多睡半小时不香吗?学以致用,赶紧动手试试吧!祝大家五一玩得开心~
WorkBuddy 涨价背后的积分博弈:免费套餐能不能挺住?省赚秘籍教你从容应对154%涨幅
腾讯云近日发布了 CodeBuddy、WorkBuddy 计费方案调整公告。其中企业旗舰版将更名为“SaaS 企业版”,企业专享版将更名为“专有云企业版”,新计费方案定于 2026 年 5 月 15 日起执行。
腾讯云 CodeBuddy & WorkBuddy(5 月 15 日生效)
- 企业旗舰版:78 元/人/月 →198 元/人/月,涨幅约 154%
- 企业专享版:158 元/人/月 →316 元/人/月,涨幅约 100%
- 企业加量包同步上调约 25%

不久前,我的日常小任务几乎都交给了 WorkBuddy,没想到转眼就宣布涨价~
不过今天这篇文章的重点不在于如何挑选套餐,对于像我这样用量不大的用户,如何以最低成本把工具用到极致才是真正要解决的问题。
首先,核心思路就一个字:省!
如果掌握了下面要说的两招,只要 WorkBuddy 免费套餐还在,就根本不需要纠结该选哪个套餐。相关详细图文教程可以参考以往发布的“WorkBuddy 积分节省指南与自定义模型教学”(可自行搜索查阅)。
第二大要点是:赚!
下面这些就是我最近积攒到的:

积分究竟怎么赚到手?
每日签到可领 100 积分,连续签到满 7 天还能额外再拿 1000。
请注意:签到活动将在 5 月 10 日截止(直到快下线才通知,好在之前已有“WorkBuddy 安装后必做的几件事”帖子提醒过大家,可回溯参考)。
如果签到入口关闭了,也不要着急!除了签到,最新的成长计划里还安排了各式各样的任务:

把能完成的任务全部做完——

前期赠送的积分相当于“免费试玩”,等活动一结束,就得实打实地掏钱了。更何况,现在各大模型厂商的 Token 价格也在持续走高。
所以,现在请立刻完成这几件事:
- 马上签到:坚持连续 7 天,一共能领到 1700 积分。
- 清完任务:把“成长计划”里的所有项目都刷一遍。
- 牢记截止日:死盯 5 月 10 日这个最后期限。
WorkBuddy进阶实战:6个高阶技能助你突破办公效率瓶颈
在上一期内容中,我们介绍了打工人必备的四个核心技能:docx、pptx、xlsx 以及 腾讯文档,借助 WorkBuddy 已经能轻松应对日常大部分工作。可实际工作中总会冒出一些“硬骨头”——扫描版合同需要提取条款,竞品数据分散在十几个网页里,临时需要一张配图却翻遍素材库也找不到合适的……这些进阶场景,单靠基础技能很难摆平。为此,我们整理了6个进阶技能实操,帮你把 WorkBuddy 的能力天花板再向上抬一个档位。
下面进入实操环节:
技能一:PDF 文档处理
核心技能: pdf
适用场景: 处理合同、报告或论文时,最让人头疼的就是从 PDF 里复制内容——格式全乱、表格支离破碎,扫描版更是连文字都选不上。pdf 技能插件可以直接读取、提取、合并 PDF,甚至能对扫描件进行 OCR 识别并转成可编辑文字,省去逐页手动输入的煎熬。
在技能商店搜索 pdf,选择官方套件版即可安装。
上周收到一份30多页的合作合同扫描件,老板让我梳理关键条款……
提示词: “请帮我读取这份 PDF 合同文件,提取以下关键信息:1. 合同主体及有效期;2. 付款条款与违约金条款;3. 知识产权归属;4. 保密协议核心内容。将提取结果整理为结构化的 Word 文档输出。”

技能二:浏览器自动化
核心技能: agent-browser(官方套件)或 browser-use
适用场景: 做竞品调研、数据采集或批量网页操作时,手动逐个打开页面复制粘贴,简直是在消磨时间。浏览器自动化技能能够直接操控浏览器,完成网页截图、表单填充、批量数据抓抓取等工作,真正实现“解放双手”。
推荐优先使用官方的 agent-browser 套件,近期上线的 browser-use 体验也很不错,大家不妨都试试看哪个更顺手。
前阵子做竞品分析,需要对比5个产品在官网上展示的功能和定价……
提示词: “请帮我打开以下竞品官网页面:[粘贴网址列表]。逐一截图并提取每个产品的:核心功能介绍、定价方案、目标用户描述。将所有信息汇总为一份 Excel 竞品对比表。”

技能三:AI 图像生成
核心技能: Nano Banana Pro
适用场景: 写推文需要配图、做方案需要封面、公众号文章需要头图——次次找素材都找到头秃。AI 绘图技能可以直接根据文字描述生成图片,无论是封面设计、插图还是产品效果图都能搞定,再也不用求设计师排期了。
提示词: “请帮我生成一张科技感的公众号封面图,尺寸 900x383 像素,主题是 AI 工具效率提升,配色以紫色渐变为主,风格简洁现代,包含几何装饰元素。”

技能四:实时联网搜索
核心技能: Perplexity 搜索
WorkBuddy三种执行模式详解:Craft、Plan、Ask的最佳选择策略
第一次打开 WorkBuddy 时,我最大的感触并不是操作复杂,而是入口太多,压根不知道从哪里入手。
界面上密密麻麻的选项看起来都和效率提升有关,可一旦真点进去,很容易选错路径。同一个任务,用了不同的模式,最终输出差别巨大,有时甚至会得到完全不符合预期的结果。
后来我花时间把它的底层逻辑梳理了一遍,重新走了一次完整的使用流程,才发现其实并不难。下面就把 WorkBuddy 的三种模式,以及对应的选择思路,整理出来供你参考。

选对模式,不仅省积分,更能大幅提升交付质量!
一、定位工作领域:代码开发 vs 日常办公
进入 WorkBuddy 后,最先看到的就是两个切换按钮——「代码开发」和「日常办公」,含义非常直给。

这一步只需要根据你的任务属性二选一:
| 场景选项 | 功能范围 | 适合人群 | 典型任务 |
|---|---|---|---|
| 代码开发 | 生成代码、调试 Bug、撰写技术方案、操作开发环境 | 程序员、技术人员 | 写 Python 脚本、修复代码报错 |
| 日常办公 | 文本创作、表格处理、资料整理、邮件撰写 | 所有职场人士 | 写公众号文章、制作配图、整理会议纪要 |
操作建议:只要不涉及写代码,不管你是要写文章、做配图,还是整理素材,直接切到「日常办公」就可以。
二、理解三大执行引擎:Craft、Plan、Ask
在对话框下方展开,就能看到 Craft、Plan、Ask 这三种模式。它们决定了 AI 会以什么方式处理你的指令。

三者的核心差别在于:是否自动执行,以及是否有中间确认环节。
假如我们以“帮我写一篇 WorkBuddy 的使用教程”为例,三者的处理方式完全不同:
| 执行方式 | 技术特征 | 交互流程 | 结果呈现 |
|---|---|---|---|
| Craft | 直接执行,没有中间确认 | 输入指令 → AI 直接操作 | 直接输出完整的教程成品 |
| Plan | 先出计划,确认后再执行 | 输入指令 → AI 拆解步骤(如:1.调研 2.大纲…)→ 用户确认 → AI 操作 | 先给出框架,再出成品 |
| Ask | 只给建议,不执行任何操作 | 输入指令 → AI 分析结构与方法 | 输出编写建议,不生成正文 |
适配性分析:
阿里云百炼Token Plan选购指南:三档套餐怎么选最划算?2026最新分析
阿里云百炼的 Coding Plan 已成过去式,仅剩少量用户还可续费一个月,取而代之的是全新上线的 Token Plan。现在无需抢购,随时可以购买,不再限购!

大家最关心的无非两点:团队版起步价 198 元/月,到底是贵了,还是更香了?
01
产品定位
Token Plan 瞄准的正是企业开发场景。它最大的特点就是可以灵活调用多个模型:用户按需使用,所有消耗都通过 Credits 统一抵扣,不必再为不同模型单独付费。

生态兼容方面,这套方案已经无缝对接了主流编程工具和各类热门 Agent,可以丝滑嵌入团队既有的技术栈。同时,产品设计了标准、高级、尊享三个坐席,用来精准覆盖从轻度到重度不同级别的使用需求。
🔒 预算可控性:采用包月订阅,直接从模式上规避了按量付费可能出现的“账单炸弹”风险。
数据安全与服务稳定性
**数据隐私:**明确承诺不会利用客户的对话数据训练模型。这对企业级客户来说不是加分项,而是底线。
**服务保障:**多租户隔离架构,确保高峰时段也不会排队卡顿。经历过 Coding Plan“一码难求”的用户,都深知稳定供给有多珍贵。
02
现状与局限
客观地看,目前的方案也还有一些遗憾。
最新模型支持尚不到位
目前暂未接入 Kimi K2.6、GLM-5.1、MiniMax-2.7 以及 DeepSeek v4 等前沿版本。特别是 GLM-5.1 的缺席,可能会让一部分用户在决策时陷入犹豫。

当前可用的模型包括:
**文本生成:**qwen3.6-plus、glm-5(非 5.1 版本)、MiniMax-M2.5、deepseek-v3.2
**图像生成:**qwen-image-2.0 系列、wan2.7-image 系列
虽然这些型号并非最新版,但应对常规业务场景,功能仍然足够扎实。
03
选型建议:三档怎么选
哪些人适合现在入手?
个人开发者:如果你对模型迭代有极致追求,建议先观望,等模型库更新后再行动。
企业用户:如果你的核心诉求是预算可控、数据合规、服务高可用,那么 198 元/月的起步价,性价比非常突出。

我们的判断
🎯 198 元的入门门槛到底值不值?直接说结论:它是目前最适合团队协作的方案。从过去的“抢购资源”转向“稳健服务”,这正是阿里云百炼的一次关键战略转身。
04
核心价值拆解
为什么叫团队版?因为它确实是为团队场景量身定做的。
理由一:统一 Credits 计量体系
百炼采用统一的“Credits”来计量一切用量,不管是对话、编程还是图像生成,都走同一个资源池结算。一个资源池,所有模型通用,透明又高效。
理由二:主流模型矩阵自由切换
从ChatGPT到ClawToken经济学:AI从模型走向系统,万亿美元赛道的底层逻辑
在看过英伟达CEO黄仁勋2026年GTC的主题演讲之后,如果把具体的产品参数暂时搁在一边就会发现,他反反复复在强调一个核心脉络:AI正在从“模型时代”,快速跨入“系统时代”。
模型的能力当然还在持续提升,但行业真正的重心已经悄然转移——AI不再满足于“会说话”,而是开始“会做事”,进而一步步走入真实的物理世界。
计算本身的形态也随之发生了根本性的变化:计算从训练阶段大幅溢出到推理阶段,从单次调用演进为多轮调度,从云端延伸至本地,再进一步渗透到物理世界的每一个角落。
AI,正在从一个“回答问题的工具”,转变为一个“持续运行的系统”。

这是一条再清晰不过的产业路线。
大模型的进化史:一部Token消耗指数级增长史
如果试着把过去三年压缩成一条演进线,大致会呈现出下面这样的图谱。
第一阶段:以ChatGPT为标志 Transformer架构与大规模预训练的成熟,让语言生成终于变得稳定可用。模型能够直接完成表达与归纳,AI第一次真正像人类一样“开口说话”,完成了一次表达能力的巨大跃迁。
第二阶段:DeepSeek R1为代表的变革 这一阶段不单单是推理能力的增强,更叠加了开源模型的大爆发。借助强化学习和推理链,模型开始主动生成中间步骤再推导出结论,计算的重心被显著拉向推理阶段,处理路径大幅延长,Token的消耗也因此急剧攀升。与此同时,开源模型的快速迭代,将强大的推理能力下沉到更广泛的开发者与企业环境里,不仅加速了技术的扩散,也让“可控、可部署”的AI真正变成现实。

第三阶段:Manus、Genspark、Lovable——Agent雏形初现 模型被嵌入到更复杂的系统当中,依靠工具调用、任务拆解以及多轮执行,完成过去难以单次达成的复杂目标。此时,一次用户请求不再仅仅对应一次推理,而是一整串调度链条,计算开始在多个模块之间持续流动。

第四阶段:Claude Code——本地执行能力走向成熟 模型开始直接进入真实的运行环境,可以操作代码、文件以及系统接口。上下文的边界从一段提示词扩展为完整的执行环境,推理结果则能够立即转化为可落地的实际操作,生成能力与执行能力前所未有地融合在一起。
第五阶段:OpenClaw——执行能力的系统化 Agent、本地执行能力和工具生态被进一步整合成持续运行的有机系统,能够支撑长任务、多阶段反馈。计算不再被“请求”所触发,而是以“进程”的形式长期存在,具备连续性与状态保持能力。

这条演进主线有一个贯穿始终的共同特征:每向前迈出一步,Token的消耗就上一个新的台阶。
AI产业的竞争重心,正从单一的“模型竞赛”,悄然转变为全方位的“Token经济”。
- 推理模型让每一个简单问题都消耗更多的Token;
- Agent系统会持续、不间断地调用模型,Token已经变成某种“流量”;
- 长任务、多步骤交互,使得Token像电力一样形成持续计费的模式。
Token的使用量正在快速攀升,而与此同时,Token的单位成本却在持续走低。每百万Token的价格会越来越便宜,这几乎没有什么悬念。
真正关键的是两条曲线之间的速度差:
我们认为,Token成本下降的速度,很可能赶不上需求膨胀的速度。因此,即便每个Token变得更便宜,每个人消耗掉的Token数量却只会更多。两者叠加的结果是,总体支出非但没有下降,反而在节节攀升。
这正是Token越来越像一种基础资源的根本原因——单位价格长期下降,而总消耗量却屡创新高。
Agentic AI:一场系统级软件革命的开幕
以OpenClaw为代表的Agentic AI之所以会骤然爆火,关键就在于它恰好踩在了软件进化的一条关键拐点上。

传统的软件交互模式是人点击按钮 → 软件执行固定逻辑 → 返回既定结果。
而现在的模式正在被彻底重塑:人只需要下达一条自然语言指令 → Agent自动拆解任务 → 协同调用多个模型、工具和数据源 → 最终交付完整成果。
两者之间最本质的差别在于,软件从一个固化的功能集合,升级为能够自主完成任务的执行者。
正如黄仁勋在演讲中所描绘的,Agent有能力查阅资料、编写代码、制定规划、运行模拟、调用外部API,并且天然具备将复杂问题拆分为多个有序步骤的能力。
它早已超越单一模型的范畴,进化为一个包罗万象的综合系统,涵盖:
- 多模型(语言、视觉、语音)
- 多工具(搜索、数据库、软件接口)
- 多环境(本地、云、多云架构)
- 持续上下文(长期记忆)
这在实质上是在一步步改写整个软件生态的底层逻辑。过去,编写代码的核心是定义逻辑;而今天,构建系统的核心是编排能力。
因此,你会清晰地看到:
- OpenAI:持续深耕工具调用(function calling),最新的GPT-5.4已经原生支持「computer use」,能直接查看屏幕、操控鼠标和键盘。
- Anthropic:重点强化Agent的长周期循环,安全运行数天之久,同时推出Claude Computer Use以及多代理协作能力。
- 开源社区:OpenClaw彻底爆发,短短两个月GitHub星标就飙升至25万以上,成为目前最实用的自托管Agent框架。
而NVIDIA给自己的定位,并不是再做一款Agent产品,而是干脆成为Agent的基础设施层(NeMo、Blueprint、推理系统等)。
物理AI:AI开始理解真实世界的法则
如果说Agent的主战场还局限在“数字世界”之内,那么物理AI则标志着人工智能第一次大规模地进军真实世界。
两者的难度完全不在同一个量级上。语言模型只需要解析语义的对错,而物理AI必须真正洞悉现实世界的物理法则:物体遵守质量守恒、受力会产生反馈、动作天然附带延迟、世界呈现连续不断的状态变化。
换个说法:语言模型解决的是逻辑上的“对不对”,物理AI则必须直面现实中的“能不能做到”。
从零构建多Agent系统:拆解Claude Code核心架构,84行代码到团队协作
很多人用过 Claude Code,也听过“Agent”“Tool Use”“Subagent”这些词,但如果被问到“Claude Code 底层到底怎么运转的”,大概率会沉默。
市面上能把 AI 编程 Agent 的架构从头到尾拆明白的教程,说实话几乎找不到。要么太学术,满篇论文术语;要么太浅,讲完“调用 API”就收工了。
有一个开源项目Learn Claude Code(GitHub 56.5K+ Star),干的事很简单:从 84 行核心循环开始,每一步只加一个机制,最终搭出一个完整的多 Agent 系统:工具调用、规划、子代理、记忆、任务调度、多 Agent 协作……

这个项目也有很多人推荐了,最近作者对整体教程做了大幅升级,这篇文章会把其中的关键设计抽丝剥茧,一步步讲透。
一共19 课,4 个阶段,代码透明,改动可追溯。

本文接近 8500 字,建议收藏,通过本文你将搞懂:
- Agent 的核心循环到底长什么样:一个 while 循环怎么撑起整个系统
- 从单 Agent 到多 Agent 需要解决哪些问题:上下文爆炸、任务编排、并发冲突,一个不落
- 每个机制的底层设计逻辑:每个机制都解决了一个真实痛点,没有多余的设计

一个核心认知:Model 是司机,Harness 是车
在聊代码之前,先搞清楚一件事。
智能来自模型训练,不是来自你写的代码。 这句话是 Learn Claude Code 整个项目的哲学基础。
打个比方:大模型是司机,你写的 Agent 框架是车。司机的驾驶技术是车企(Anthropic、OpenAI 们)通过海量训练数据练出来的,你没法替司机踩油门。但你能造一辆好车——给司机配上方向盘、仪表盘、刹车和安全带。
这辆车的名字就是前段时间刷爆技术圈的:Harness。
Harness 包含什么?工具(让 Agent 能读写文件、跑命令)、知识(按需加载的领域文档)、上下文管理(防止对话过长导致失忆)、权限控制(防止 Agent 瞎删东西)。模型负责思考和决策,Harness 负责提供手脚和边界。
