OpenCode智能代理体系:7大代理+14个工具,打造自主协作的AI开发团队
🔥 你有没有想过,AI 除了聊天,还能像一支真正的开发团队那样读代码、写代码、执行测试、甚至完成部署上线?
7 大智能代理 × 14 个内置工具——OpenCode 不只是一个“会写代码的聊天机器人”,它更像一个可以自主思考、分工协作、精准操控的 AI 开发团队。
📌 核心概念:两层能力架构
在上一篇文章《75+ 模型随心选——模型配置全攻略》中,我们完成了模型的挑选。但模型只是“大脑”,OpenCode 真正的能力来自它的指挥体系——代理(Agent) 和 工具(Tool)。
为什么需要代理和工具?
设想一个场景:你对 AI 说“重构整个用户认证模块”。如果只有一个通用 AI,它必须同时理解需求、规划步骤、读写文件、运行测试……什么都要做,什么都有可能搞砸。
OpenCode 的思路完全不同:让专业的代理去做专业的事,就像一个组织有序的开发团队:
你的自然语言指令
代理层 思考 · 规划 · 分工
工具层 读 · 写 · 执行 · 搜索
你的代码库 文件 / 命令 / 搜索
- 代理(Agent):决定“怎么思考”——分析、规划、分工、协作
- 工具(Tool):决定“能做什么”——读写文件、执行命令、搜索代码
💡 说明:OpenCode 还支持通过 MCP 连接外部工具链(数据库、API、云服务),这是第三层扩展能力。关于 MCP 的内容将安排在本系列第 4 篇《MCP 深度实战——连接开发工具链》中单独讲解,本文聚焦在代理与内置工具本身。
🤖 智能代理系统
7 大内置代理全景
OpenCode 内置了 7 个专用代理,按照职责可以分为三层:
| 代理 | 层级 | 角色定位 | 工具权限 | 典型场景 |
|---|---|---|---|---|
| Build | 主代理 | 构建者 | 全部工具 | 编写代码、修复缺陷、执行任务 |
| Plan | 主代理 | 规划者 | 文件编辑和 bash 默认需确认 | 分析项目、设计方案 |
| General | 子代理 | 全能型 | 除 todowrite 外全部工具 | 处理复杂子任务、并行工作 |
| Explore | 子代理 | 探索者 | 只读 | 搜索代码、理解架构 |
| Compaction | 系统代理 | 上下文压缩 | — | 自动压缩长对话 |
| Title | 系统代理 | 标题生成 | — | 为会话自动生成标题 |
| Summary | 系统代理 | 摘要生成 | — | 生成会话摘要 |
子代理(@ 调用)
OpenDataLoader PDF 开源引擎深度评测:0.907 综合准确率领跑,赋能 AI 数据流水线与 PDF 无障碍合规

核心亮点
OpenDataLoader PDF 是一款由韩国 Hancom 公司开源的 PDF 解析引擎,专为 AI 数据流水线和 PDF 无障碍合规场景设计。在公开基准测试中,它以 0.907 的综合准确率位列第一,既支持完全确定性的本地模式,也能在 AI 混合模式下自动调度复杂页面,无需 GPU 即可 100% 本地运行。
20.7k
GitHub 星标
0.907
综合准确率
Apache 2.0
开源协议
项目简介:它能做什么
做 AI 应用时,你一定遇到过这些棘手问题:PDF 中的表格被拆成乱序文本、多栏排版读出来顺序错误、扫描件里的文字完全丢失。市面上的工具要么太慢,要么太贵,要么精度太差。
OpenDataLoader PDF 要解决的正是这些问题:把 PDF “看懂”并转成机器可用的结构化格式。它不仅能提取文字,更理解文档的内在结构——知道哪里是标题、何处是表格、图片放在什么位置、正常的阅读顺序是怎样的。输出可以是干净的 Markdown、带有坐标信息的 JSON,或者可直接嵌入网页的 HTML。
面向的核心用户包括:AI 应用开发者(构建 RAG 知识库时需从 PDF 中提取结构化信息)、企业合规团队(应对欧盟 EAA 对 PDF 无障碍化的要求)、数据工程师(批量处理文档)。如果你只是普通用户,想在网页上使用 AI 阅读 PDF,这个项目可能并非刚需。
项目背景与社区反馈
该项目由拥有 35 年文档处理技术沉淀的韩国老牌软件公司 Hancom 开发并开源。Hancom 在韩国的地位可类比为“金山办公”。截至 2026 年 5 月,GitHub 已收获 20,686 颗星,fork 数达 1,914,是目前增长最快的 PDF 开源项目之一。
RHTV一站式AI视频创作工具全面体验:告别提示词与反复抽卡,全流程可视化掌控
今年以来,AI视频工具持续爆发。从年初字节跳动发布 Seedance 2.0,到可灵生成的 AI 短片《纸手机》火遍全网,再到阿里 HappyHorse 登上 Artificial Analysis 视频竞技场榜首。随后,内容创作者蜂拥而至,AI真人视频、AI漫剧、AI演唱会等内容频频刷屏,热度居高不下。

尽管内容创作的风口正盛,但真正动手做 AI 视频时才会发现,最让人崩溃的不是操作工具本身,而是在写脚本、调提示词、反复抽卡之间来回拉扯。我身边有位做 AI 短剧的朋友,拍到第三集时发现角色脸型开始飘移,和前两集已经不再是同一个人了,只能全部推倒重来,相当于白忙一天。
这并非个例,而是众多 AI 视频工具的共性缺陷——生成过程像黑盒,你看不见过程,更无法修改,只能一遍遍重新抽取。不过,最近体验了 RHTV 后,我眼前一亮:原来做 AI 视频可以不用苦苦编写提示词,也不必反复抽卡。
先看一个 RHTV 的优秀案例:
(视频来自Joe183,同时借这个视频提前祝所有妈妈们母亲节快乐!)
就让我们一起来看一看,这个AI工具到底有没有这么大的魔力。
RHTV是什么?
经常接触 AI 生图和视频的伙伴,大多听过或者用过 RunningHub——它是中国最大的 ComfyUI 平台。而 RHTV 正是由 RunningHub 出品的原生 AI 智能体全能内容创作平台。

通俗地说:你可以在同一张画布里完成文本创作→角色生成→场景搭建→分镜设计→视频生成→音频合成→剪辑输出的完整流程,再也不用在多个 AI 工具之间来回切换。
所有步骤清晰摆放在眼前,每一步做了什么,你都能看到;每一个环节都可以单独点进去修改。哪一帧不满意,直接改那一帧就好,其他部分原封不动。

或许有伙伴看到图示会觉得操作复杂,其实完全不用担心。你只需要说出想法,它就会帮你拆解流程:角色定稿、场景搭建、分镜规划、视频生成,全部由它推进,而你只需在每一步确认即可。
RHTV 实战:制作一条运动品牌短片
在 RHTV 中制作视频,同样可以一句话生成,就像其他 AI 视频工具那样。
比如,我想要做一条运动服装品牌推广短片,只给了它一句话的需求:
“都市街头风格,主角是穿运动服的年轻女生,展示跑步和跳绳的日常,要有节奏感,适合抖音发布。”
一般的 AI 工具会直接闷头生成视频,不满意的话就要反复抽卡,非常折腾。而 RHTV 的智能体会先自动思考,然后给出方案选项并让我确认一些信息。

确认方案后,画布会同步创建视频节点,并自动填好提示词和各项参数。我们只需核对一眼,点击确认执行,它就会立刻生成对应的素材。

接下来,它会让我们依次确认剧本、分镜、提示词等。
上下滑动查看更多

对所有信息逐一确认之后,RHTV 就能直接交付最终结果。
Superpowers + Claude Code 实战:从零搭建 FastAPI 认证脚手架实录
以 Superpowers 七阶段工作流为纲,借助 Claude Code 和 GLM 5.1 全程驱动,手把手构建一个可直接投产的 FastAPI + SQLAlchemy + Redis RESTful API 服务。
核心概念速览
这是什么?
这是一篇动手操作实录。我打开 Claude Code,使用 GLM 5.1 作为 Coding Plan 供应方,严格遵循 Superpowers 工作流,从空白项目开始,搭建一套完整的 Python FastAPI Server 脚手架。
最终交付物:一个提供用户注册、登录鉴权及受保护端点的 RESTful API 服务,可以直接作为任何 Python 后端项目的初始骨架。
为什么选择 Python?
2025–2026 年,Python 在 API 服务领域的采用率持续走高。FastAPI 的出现彻底扭转了“Python 不适合高性能 API”的旧印象:
- 异步原生:基于 Starlette 与 Pydantic,天生支持 async/await
- 自动文档:OpenAPI + Swagger UI 开箱即用,前端协作几乎零开销
- 类型安全:Pydantic v2 完成请求验证与序列化,运行时的类型检查能力甚至超过 Go 的 struct tag
- 生态无敌:覆盖 ML/AI、数据处理、自动运维,一站式解决能力无出其右
能解决哪些痛点?
- 想用 FastAPI 启动后端项目但缺乏完整参考实现
- 看过 FastAPI 官网教程,却不清楚生产级项目如何组织
- 需要一套可复用的 Python API 脚手架作为新项目的起点
- 想在 Go、Spring Boot、Rust、Python 这四种语言的脚手架间做横向对比
ClaudeCode 编码执行
阿里Wan2.7-Image深度实测:捏脸锁色、局部重绘,AI生图不再是开盲盒
你是否也有这样的体验:
用 AI 生成图像,跑出来的脸几乎一模一样,像是同一条流水线上贴了不同发型。好不容易调出一张满意的构图,想微调一个小细节,结果所有不想改动的地方全乱了。调色要“多巴胺风”,它给你荧光粉;要暗调电影感,它偏偏亮得刺眼。还有文字,要么干脆乱码,要么完全不按提示词来,根本没法直接用在封面或海报上。
这些痛点,做内容的人几乎每天都在踩坑。
上周,阿里发布了最新的生图模型 Wan2.7-Image,据说一口气把这几大难题打包解决了。我第一时间上手实测,看看这次更新究竟能给自媒体博主、电商从业者带来哪些实质变化。
下面就聊聊我实操后最真实的感受。
1. 告别千篇一律,捏出真正的“活人感”
做自媒体的都知道,想要一个有辨识度的人物配图,以前基本靠“抽卡”。AI 常常生成高颅顶、大眼睛、过度磨皮的脸——清一色的“AI感”,一眼就能看出不是真人。
Wan2.7-Image 这次打通了一套细颗粒度的捏脸系统,可以从骨骼结构、五官特征等维度精细描述,捏出真正拥有辨识度的面孔。
可调参数大致包括:
- 脸型:鹅蛋脸、圆脸、方脸、长方脸,甚至六角形脸。
- 眼部特征:杏仁眼、深邃眼窝、圆眼、丹凤眼。
- 肤色、发型、胡须、纹身、眼镜……几乎你能想到的所有细节都能独立控制。
想要什么脸,直接描述即可。
我分别用简单和复杂两组提示词做了测试。第一组用非常基础的提示词,没有精细控制任何五官:“一个年轻女性肖像,半身照,电影感光影,高清细节,真实皮肤质感”,一次生成 4 张。

结果 4 张图在脸型轮廓、颧骨位置、下颌线弧度上各自不同;皮肤纹理、毛孔、轻微泛红全部保留,没有那种过度磨皮的假面感。
接着我加大难度,用了一段很“刁钻”的提示词:
“正面半身肖像特写,人物平静地看向镜头。一位 35 岁左右的亚洲女性,长方脸型,骨骼感明显,颧骨微高,单眼皮,眼神带有沉静的阅历感。留着自然垂落的黑色中长直发。重点要求:绝对不要 AI 磨皮,必须保留真实的皮肤瑕疵,脸颊要有明显的色斑、雀斑和毛孔,眼底有轻微的细纹和暗沉。侧面窗边柔和的自然漫射光,背景是虚化的窗框和绿植,极强的纪实摄影质感与活人感。”

成图出来的瞬间,那种扑面而来的真实感确实让人有些恍惚。画面上不再是那个美颜拉满的假人,而是一个有血有肉、带着生活痕迹的真实女性。放大看,不均匀的色斑、细腻的毛孔、下颌角的自然阴影,甚至额前微微凌乱的碎发,都极度逼真。
对于做短剧、漫画这类需要多个不同角色持续出场的项目,再也不容易撞脸了。而对于电商和自媒体创作者来说,无论是定制专属模特形象,还是打造个人 IP 的虚拟分身,都能通过这项功能快速实现,不必再完全依赖真人拍摄与后期修图。
2. 精准调色,告别色彩抽盲盒
这是我这次测试里最惊喜的功能。
以前做品牌的内容,想统一视觉风格,每张图跑出来的颜色都不一样,后期调色调到怀疑人生。Wan2.7-Image 直接内置了调色盘功能,自带 6 个主流色系供我们选择。

也可以上传自己的图片来新增调色盘,让模型直接提取其中的主色。

生成的图像色彩非常到位,整体质感也很好。

然后,我故意做了一个刁难式的测试:生成一棵树,但把调色盘全部锁定在蓝色系,完全排除绿色。

在常规模型里,只要看到“树”这个词,潜意识一定会往里塞绿色,哪怕明确说了“蓝色”,它也常常偷偷加绿。但这次,整棵树的叶片、树干全部落在深蓝和青蓝色系里,没有一丝杂色;连树叶随风飘动的动态感都有了,却依然死死咬住那套蓝色,毫不动摇。
还有一个更贴近实际工作的场景:把品牌 Logo 上传进调色盘,它会自动提取你的品牌主色。之后不管生成什么图,整体配色都会自动对齐品牌 VI。做电商、做品牌内容的,以后批量出图,再也不用担心颜色跑偏了。
3. 超长文本渲染,文字终于不乱码了
AI 生图中的文字渲染,一直以来都是重灾区。英文里写个“SALE”你可能得到“SAIE”,中文更惨,经常就是一堆看起来像汉字其实读不出的鬼画符。
Wan2.7-Image 这次文本渲染能力大幅提升,支持 12 种语言、最高 3K tokens 的超长文本输入,很好地解决了模糊、错乱、漏写这些老问题。
比如,生成一张“书桌上一个笔记本上写着《Wish You Were Here》歌词的原文”的图片。
从零搭建 Rust 高性能 API 脚手架:Axum + SQLx + Redis 全流程实战,AI 编程加速指南
借助 Superpowers 七阶段工作流,全程在 Claude Code 与 GLM 5.1 的驱动下,从零构建一套可直接运行的 Axum + SQLx + Redis RESTful API 服务。
核心概念(3 分钟快速理解)
这是什么?
这是一份实战记录。我在本地启动 Claude Code,选用 GLM 5.1 作为 Coding Plan Provider,遵循 Superpowers 工作流,从头搭建了一套 Rust API Server 脚手架的全流程。
最终输出的是一套包含用户注册、登录鉴权以及受保护接口的 RESTful API 服务,可以直接作为任何 Rust 后端项目的起始代码。
为什么重要?
本系列的第 21、22 篇已经分别展示了 Go 和 Java 版本的 API Server 脚手架。本文是 Rust 版本——采用 2025‑2026 年后端领域增速最快的语言,结合同一套 Superpowers 工作流,展现 AI 编程在 Rust 上的实战效果。
公认 Rust 的学习曲线陡峭:所有权、生命周期、trait 系统等概念让许多开发者退避三舍。但有了 Claude Code,AI 可以协助处理大量类型系统和编译器报错,使你能够把注意力集中在业务逻辑本身。
能解决什么问题?
- 想尝试 Rust 后端开发却被编译器反复劝退
- 希望使用 Claude Code 搭建 Rust 项目但缺少参考
- 想要了解 Axum + SQLx 的标准集成方式
- 需要一套可复用、高性能的 Rust 脚手架作为起点
Claude Code 编码执行
东京审判80周年:从岸信介到高市早苗,未清算的战争罪责如何让日本右翼长盛不衰

▌ 核心结论
东条英机虽被绞刑,但军国主义滋生的土壤从未被真正翻耕。出于冷战算计,美国豁免天皇、包庇731部队、释放甲级战犯并扶持他们重返政治舞台。从岸信介到安倍晋三,再到今日的高市早苗,一条未被剪断的右翼血脉延续至今。2026年的日本,正滑向一条危险的道路。
信息来源:维基百科、美国国务院历史办公室、BBC、新华社
东条英机:一人背负帝国战罪
近期,一条推文在X平台广泛传播,转发近千次。作者Mario Nawfal写道:“人人都知道希特勒,但几乎没人记得东条英机——二战时期的日本首相。在他的任期内,日本军国主义在亚洲屠杀了数百万平民,南京大屠杀、731部队人体实验、化学武器、工业化的性奴隶制度……战后,大量责任人逍遥法外,因为美国决定将日本变成反苏盟友。”这段话精准击中了历史记忆最脆弱的神经。
东条英机于1941年至1944年担任日本内阁首相兼陆相,是太平洋战争期间日本事实上的最高军政决策者。他亲自批准偷袭珍珠港,主导日本对东南亚的全面侵略,授权对战俘和占领区平民施加非人待遇。据史学家R·J·拉梅尔统计,日本帝国在亚洲造成的死亡人数约300万,其中相当一部分发生在东条执政时期。
南京大屠杀、731部队与慰安妇:被掩盖的系统性暴行
南京大屠杀中,日军使用刺刀挑杀、活埋、火烧、轮奸等手段,六周内屠杀了三十万中国人。军官甚至举行“百人斩”竞赛,以军刀砍下的人头数量为赌注。这些暴行绝非士兵失控,而是日本军政高层系统性授权和默许的结果。时任上海派遣军司令朝香宫鸠彦王(天皇裕仁的叔父)曾下达“杀掉全部俘虏”的命令;作为皇室成员,他从未被追究任何责任。
731部队冻结婴儿进行活体实验,在无麻醉状态下解剖活人,用中国和朝鲜平民测试鼠疫炸弹。据2002年国际细菌战罪行研讨会统计,日军细菌战和人体实验致死人数约为58万。731部队长石井四郎及其全部骨干,在战后被美国给予完全豁免——条件是把人体实验数据交给美国。麦克阿瑟亲自批准这项肮脏交易。1981年,东京审判最后一位在世的法官伯特·罗兰沉痛记录:“得知中央政府下令进行的最令人作呕的日本战争罪行被美国政府向法庭隐瞒,这对我是一次痛苦的经历。”
慰安妇制度更是人类历史上罕见的制度化性奴隶系统。日本政府强征至少二十万妇女(大部分来自朝鲜半岛和中国)充当“慰安妇”。而2026年担任首相的高市早苗,曾公开质疑“河野谈话”的真实性,否认日军强征行为,将这一反人类罪行歪曲为“商业行为”。
东京审判:一场被冷战腰斩的正义
东京审判最致命的缺陷,是从头至尾未曾追究天皇裕仁的战争责任。麦克阿瑟很清楚天皇有罪——美国国务院内部文件SWNCC-55/3明确判断“裕仁可被逮捕、审判和作为战犯惩处”。但出于占领需要,他决定保留天皇。为了给这个决定制造法理借口,盟军最高司令部甚至指导东条英机在法庭上主动揽责,声称“即便陛下反对对美开战,我也已下定决心强行把战争推进下去”——由此虚构出“天皇被军部胁迫”的假象。
保留天皇制,意味着军国主义的精神核心从未被切除。正如中国法官梅汝璈在审判结束后一针见血地指出:不追究天皇,就是养虎为患。
1948年12月23日,东条英机等七人被绞死。
1948年12月24日,麦克阿瑟下令释放巢鸭监狱中的岸信介等19名甲级战犯嫌疑人。
1949年,美国终止对乙级、丙级战犯的审判。
1950年3月,麦克阿瑟颁布第5号指令,允许服刑战犯“宣誓释放”。
1950—1952年,约18万曾被“整肃”的军国主义分子重返政坛和社会要职。
“逆向路线”:美国如何亲手复活战犯政治
1947年后,冷战格局成形,美国对日政策急转弯,史称“逆向路线”(Reverse Course)。华盛顿的首要目标从“彻底改造日本”变为“把日本打造成反共前哨”。为此,占领当局不仅叫停了对战犯的起诉,更主动释放、重用昔日敌人。
最具象征意义的人物是岸信介。他曾任东条英机内阁商工大臣,在伪满洲国搜刮资源、奴役中国劳工,1945年被列为甲级战犯嫌疑人。但在东条英机被处决的第二天,岸信介就获释了。1953年他当选国会议员,1957年出任日本首相。岸信介是安倍晋三的外祖父。他任内推动修宪、试图废除宪法第九条、要求提前释放所有乙丙级战犯,并将东条英机等人立碑纪念为“为国捐躯的七烈士”。
岸信介绝非个例。1955年,在他的主导下,日本保守势力整合为自由民主党(自民党),开启了至今仍在延续的“55年体制”。这个体制的建立,有美国中央情报局的直接资金支持和政治策划。美国驻日大使艾利森亲自推动保守派联合,因为华盛顿需要一个“不会偏离亲美路线”的日本政权。而岸信介向美方保证:“未来25年,日本的最佳利益就是与美国紧密合作。”
岸信介—安倍—高市:右翼血脉的世代延续
安倍晋三继承了外祖父岸信介的未竟之志。2012年第二次上台后,他参拜靖国神社、推动解禁集体自卫权、通过“安保法案”、修改武器出口三原则、设立“历史担当首相辅佐官”系统性地发动“历史战”。2015年的战后70周年谈话中,他宣布“不能让与战争毫无关系的子孙后代背负继续道歉的宿命”,实质上为日本的历史道歉画上了句号。
2025年10月,安倍的坚定追随者高市早苗成为日本首相,被视为安倍政治衣钵的继承人。上任不足半年,她便展现出比安倍更激进的姿态:将防卫预算提升至GDP的2%(2026年再创历史新高,连续第14年增长);公开宣称台湾局势可能构成“日本生存威胁”;推动删除宪法第九条并增设“紧急事态条款”;计划在2026年底前完成安保政策的全面修订,解除武器出口禁令。更甚者,她在著作中暗示“大东亚战争”具有“自存自卫”和“解放亚洲”的积极意义——与右翼“大东亚战争肯定论”一脉相承。
从岸信介到安倍晋三再到高市早苗,这条政治血统清晰地证明:日本军国主义的罪责从未被真正清算。它只是换了一身西装,换了一套话术,继续潜伏在权力核心。
更令人警惕的是,极右翼政党参政党(Sanseito)在2025年参议院选举中异军突起,主张“日本人优先”、否认南京大屠杀、要求将“教育敕语”重新列为必修内容。该党的存在正在把自民党进一步向右拖拽,形成危险的“极端化竞赛”。
历史警钟:亚太安全的新隐患
战后八十年,日本社会的主流历史叙事已完成从“加害者”到“受害者”的转换。教科书中南京大屠杀的内容被大幅削减,高中近现代史教学被边缘化,而广岛、长崎的原爆受害经历却占据显著篇幅。日本山口大学名誉教授纐纈厚指出:“对许多日本人来说,战争是以广岛、长崎为代表的受害经历,而侵略亚洲国家的事实被刻意回避了。”
当“加害者”身份被模糊,“受害者”叙事成为主流,“历史修正主义”便获得了民粹的温床。2025年8月15日,参政党代表神谷宗币在靖国神社前公开拒绝回应“如何看待日军侵华”的追问。早前他在街头演讲中更妄称“日本从未觊觎中国土地,所谓侵略是谎言”。
2026年的日本正站在危险的十字路口。高市早苗政府以“中国威胁论”为由加速扩军,极右翼政党步步紧逼,和平宪法第九条岌岌可危。而这一切的根源,可以追溯到1948年12月那个决定释放战犯的夜晚——当美国选择用冷战逻辑替代正义逻辑。
历史正在兑现中国法官梅汝璈离开东京前发出的警告:被强权政治践踏的国际正义,终有一天会反噬纵容者自身。今天,这个预言正在亚太上空隆隆回响。
参考来源:BBC中文、美国国务院历史办公室、维基百科、新华社/新华网、南开大学日本研究院、East Asia Forum、The Conversation
豆包2.0原生多模态实测:全面升级硬刚GPT-5与Gemini 3
2026年2月,字节跳动几乎天天都在搞事情。当大家还沉浸在Seedance 2.0“一分钟生成好莱坞大片”的震撼里,字节再次放出大招,对豆包大模型的底座进行升级,上线专家模式并正式接入豆包大模型Seed 2.0,一举迈入2.0时代。

这次升级可不简单,豆包直接从“对话模型”蜕变成了一个“原生多模态通用模型”。简单来说,它不再只接收文字、输出文字,而是能处理图像、视频、文档等复杂输入,并在此基础上进行推理和持续执行任务。
那么,这次升级具体能带来哪些便利?接下来我们通过实测来一一揭晓。
一、豆包2.0模型升级六大维度
1. 模型矩阵
推出Pro、Lite、Mini、Code四大版本,覆盖高端推理、日常办公、边缘终端和专业编程全场景。
其中,Pro和Lite版本已在豆包App与网页版上线,Pro对应专家模式,Lite对应思考模式和快速模式。

Code版仅在TRAE中使用,Mini版则主要面向企业级低时延、高并发场景。
2. 推理效率与成本
推理速度提升43%,单token计算成本降低70%;Pro版支持每秒10万级并发请求,响应延迟压缩至80毫秒以内。
3. 多模态感知能力
视觉理解、空间关系解析、运动理解均达到国际领先水准。
4. 长上下文与知识深度
Pro版支持最高128K token上下文输入;在各大专业知识评测中得分超越同级竞品,位列第一。
5. Agent能力
复杂商业任务成功率达91%,工具调用准确率提升37%;原生支持多技能调用、多轮指令持续遵循以及稳定结构化输出。
6. 代码与编程能力
Code版深度集成TRAE,强化代码生成、智能补全、漏洞调试和项目重构能力。
这次升级将豆包“全能选手”的特质展现得淋漓尽致。口说无凭,接下来就通过五项实测来验证它的真实实力。
二、豆包2.0五大场景沉浸式实测
实测1:检索能力
对于经常需要查找资料的用户而言,检索准确性异常重要,用AI搜索最怕它胡编乱造。豆包2.0能否带来更可靠的体验?例如我们提问:“AI政策调整时间线”。

从初步结果就能看到,豆包搜索的资料基本源自权威网站,可信度颇高。
实测2:视觉识别
大家或许会遇到这些情况:领导递来潦草的手写稿要求整理成电子文档,或者需要从截图、扫描件中提取文字。以前我们只能先OCR识别,再清洗结构,文字对不上还得手动校对,费时费力。豆包2.0的视觉识别能力却非常扎实,我把过去领导留下的手写稿发给它,让它提取文字。原稿简直让人怀疑人生,仿佛不认识他写的字。

但现在,豆包只用几秒钟便精准提取出文字。

这无疑是打工人的福音,让人直呼“真香”。
实测3:数据处理
在数据分析这块,豆包2.0比之前进步显著。例如,我们上传一张人员招聘与流失表,并输入简单指令:“详细分析数据,生成分析报告”。

豆包迅速输出了一份详细完整的报告,即便只凭少量数据,也能分析得如此透彻,令人惊喜。
上下滑动查看更多

实测4:规划能力
工作生活中,许多人需要策划活动或项目,豆包2.0也强化了这一能力。比如,我们计划在3月举办一场AI线下沙龙,让豆包生成一份规划。
上下滑动查看更多

它产出的规划相当完善,几乎涵盖了我们想要的各个要点。
实测5:生成PPT
不少小伙伴写作业、上班时都需要做PPT,常常为此头疼。现在豆包提供了PPT生成功能,目前尚处于免费阶段。

只需选择PPT模板,就能自动生成。

如果对风格有更高要求,还可以进行自定义设定。

整体体验下来,豆包2.0给人的感觉用两个字概括就是——全面。文本推理、多模态理解和Agent能力全部拉满,这不仅是参数的胜利,更是生产力边界的再一次拓宽。工具再强,终究只是载体,主动使用才能真正改变工作与生活。
好了,今天就聊到这儿。如果你也体验了豆包2.0,欢迎在评论区聊聊你的感受,或者还希望我们测试哪些场景,也可以留言告诉我们。
豆包公布68元-500元付费方案:国产AI免费时代结束?一篇看懂你是否需要花钱
先说结论,不绕弯子
免费版本不会消失,95% 的用户一分钱都不用掏。
但如果你用 AI 做视频、生成 PPT、做深度数据分析,你可能就是那需要准备钱包的 5%。
事件始末:一则 App Store 声明引爆热搜
5 月 4 日,有用户发现豆包在苹果 App Store 的应用详情页悄悄挂出了一份付费版本服务声明。
没有发布会,没有官方新闻稿,只是在 App Store 页面里加了几行字。
随后,“豆包 付费”直接冲上微博热搜第一。
这几行字是这么写的:
| 版本 | 连续包月 | 连续包年 |
|---|---|---|
| 基础版 | 免费 | - |
| 标准版 | ¥68/月 | ¥688/年 |
| 加强版 | ¥200/月 | ¥2048/年 |
| 专业版 | ¥500/月 | ¥5088/年 |
以上价格来自豆包 App Store 服务声明,均为连续订阅价格。非连续年卡价格更高(加强版 ¥3,688/年,专业版 ¥9,488/年)。
一个月 500 块。
很多人一看这个数字直接炸了——一个国产聊天机器人,凭什么比 ChatGPT 还贵?
先别急,我们慢慢拆。
官方回应:快,也很明确
豆包没有当哑巴,热搜出来的当天就给了回应,核心三句:
第一句:“豆包始终提供免费服务。”
第二句:“相关方案细节还在测试阶段。”
第三句:“付费功能主要面向复杂任务和生产力场景。”
而且直到发文这一刻,豆包 App 里连一个付费入口都没有,所有功能仍然是免费用。
翻译成大白话就是:价格先挂出来,具体怎么收还没定,看看大家怎么说。
三档会员,到底差在哪?
目前披露出来的信息显示,三档付费会员的分工非常清晰——免费版管日常,付费版包生产。
注意:以下功能划分来自多家科技媒体根据 App Store 声明和测试版界面整理的资料,并非豆包官方正式发布,正式上线时仍可能出现调整。
标准版 ¥68/月——面向上班族与学生
你平时用豆包写写周报、做个总结、答答疑问,免费版就足够了。
赋予AI编程助手设计师之眼:UI/UX Pro Max技能全景解析
内置67种UI风格、161个配色方案、161条行业推理规则——一个Skill即可将Claude Code等15+AI编程工具升级为专业UI/UX设计师。
核心认知:三分钟读懂UI/UX Pro Max
它是什么?
UI/UX Pro Max是一个开源的设计智能插件(Skill),为Claude Code、Cursor、Windsurf、GitHub Copilot等15+款AI编程工具注入专业级UI/UX设计知识。它并非独立应用,而是一个“知识库+搜索引擎”的组合体。安装后,每当AI助手为你生成界面时,它会自动调取配色、排版与交互决策,使输出直接达到专业设计师水准。
GitHub仓库:nextlevelbuilder/ui-ux-pro-max-skill[1]
为什么你需要它?
AI编程工具在业务逻辑上表现优异,但界面审美往往是最大短板。任何用Claude Code构建过前端的人都能体会这些痛点:
- 生成的界面“能用但毫无设计感”
- 配色要么一片灰调,要么乱如彩虹
- 字体永远停留在浏览器默认
- 对不同行业(金融、医疗、电商)的UI特征毫无概念
UI/UX Pro Max正是为了弥补这一缺陷而诞生。
它能解决哪些具体问题?
| 痛点 | 解决方案 |
|---|---|
| AI生成UI千篇一律 | 67种UI风格 + 161条行业推理规则驱动差异化 |
| 配色缺乏专业性 | 161个配色方案,按行业自动匹配 |
| 字体搭配随意 | 57组字体组合,附带Google Fonts直达链接 |
| 不懂行业设计规范 | 涵盖金融、医疗、电商等161类行业的专属设计准则 |
| 无障碍意识薄弱 | 99条UX准则,无障碍始终作为最高优先级 |
用户需求描述 → BM25搜索引擎 → 行业推理引擎(161条规则) → 完整设计系统输出(配色、字体、布局、反模式检测、交付清单)
技术架构一览
知识库规模
整个Skill基于结构化的轻量CSV文件,组成庞大的设计知识网络:
| 数据集 | 数量 | 说明 |
|---|---|---|
| UI风格 | 67种 | Soft UI、Glassmorphism、Neo-Brutalism等 |
| 配色方案 | 161个 | 含主色、辅色、号召性按钮色、背景色、文字色 |
| 字体搭配 | 57组 | 标题字体+正文字体,附Google Fonts引用 |
| UX准则 | 99条 | 按优先级排列:无障碍 > 触控 > 性能等 |
| 行业推理规则 | 161条 | 金融、医疗、电商等细分领域的专属设计决策链 |
| 图表类型 | 25种 | 推荐用于数据可视化场景 |
| 落地页模式 | - | Hero-Centric、Social Proof等模式 |
搜索引擎
基于BM25算法的纯Python实现,零外部依赖。工作流程如下:
