Anthropic Fable 5 提示工程新纪元:长时间自主运行与迁移实战完全指南

继 Anthropic 于 6 月 9 日推出首个公开的 Mythos 级模型 Claude Fable 5 后,其官方也同步公开了全新的提示工程指南。本文浓缩该指南的核心要点,剖析 Fable 5 与此前 Claude 模型的本质区别,详解提示方法需要做出的关键调整,并揭示迁移过程中常见的陷阱。
官方实操精华
Fable 5 并非 Claude Opus 4.8 的常规迭代,而是一个全新的 Mythos 系列成员。正因为此,Anthropic 专门编写了一篇提示指南——沿用 Opus 4.8 甚至更老模型的那套提示方式,非但不能激发 Fable 5 的潜力,反而可能拉低输出质量。若你发现 Fable 5 运行耗时变长、经常反问澄清、或自发执行计划外动作,这恰是新模型的行为模式,说明你的提示语与辅助架构必须同步演进。
一、核心变革:Fable 5 与前辈模型的本质差异
Fable 5 的质变在于能够胜任前代模型无法维持的长时间、多步骤自主任务,运行持续时长从分钟级跃升至数小时甚至数天,实现量级跨越。
- 长时间自主执行:Fable 5 能在数天的目标驱动型任务中稳定输出,指令保持力较以往模型有大幅提升。单个复杂请求在高 effort 配置下可能持续运行数分钟
- 一次通过率大幅攀升:早期用户反馈,过去需要多天反复打磨的系统实现,Fable 5 往往一次性完成
- 主动澄清提问:在进入自主工作循环前,Fable 5 可能会主动抛出一连串澄清性问题,以此深入理解你的意图
- 并行子代理协同:Fable 5 能稳健地委派并协调 50 个以上的并行子代理,编排能力显著增强
- 视觉理解升维:对于信息密集的技术图片、图表和 PDF 文档,解读准确度明显提升,并能自主借助 bash 与裁剪工具处理模糊或旋转的图像
基准方面,Fable 5 在 SWE-Bench Pro 上获得 80.3%(Opus 4.8 为 69.2%),并成为首个 Hex 分析基准突破 90% 的模型。定价为输入每百万 token 10 美元,输出每百万 token 50 美元。
二、Effort 智能控制:驾驭计算成本的调节阀
Effort 是调节智力、延迟与成本三角平衡的核心杠杆,Anthropic 的推荐等级如下:
- Low 或 Medium:适合快速问答、简单改写、基础资料检索及日常对话
- High:默认值,应对大多数通用任务
- Xhigh:用于最棘手的难题,复杂构建或多步骤分析等对质量零容忍的场景
- Ultracode:实现全自主编排,搭配动态工作流程
若在例行任务上施以高 effort,Fable 5 会收集过度上下文并进行额外斟酌;若感觉模型“想多了”,可适当调低 effort。反之,低 effort 下的 Fable 5 仍优于前代模型的 xhigh 表现。
三、意图驱动提示:赋予上下文而非机械指令
Fable 5 在理解任务背后的动机后表现更优。提供背景,使其将任务与相关信息串联,而不是被迫猜测意图。Anthropic 推荐采用如下结构:
推荐提示模板
“我正在进行 [某项更宏观的任务],是为 [某某受众] 准备的。 他们需要 [输出能帮他们达成什么]。 在此背景下:[你的具体请求]”
此外,拼装四个基础要素即可构成完整提示:上下文(文件、数据等背景)、请求(用一句话明确所需)、输出格式(交付结构和形式)以及约束(不能执行的事项)。
四、三大实战指令模板:简洁、检查点与记忆系统
Anthropic 官方指南提供了几个可直接复用的指令框架。
1. 简洁指令 “直接给出结果。完成后的首句必须概括 ‘发生了什么’或‘你发现了什么’。读者需要结论, 推理过程放在后面。”
2. 检查点指令 “仅在真正需要你介入时才暂停: 即破坏性或不可逆操作、实质性的范围变更、 以及只有你能提供的输入。其余情形自行推进, 结束后进行汇报。”
3. 记忆系统指令 “每个文件保存一条经验,顶部用一行摘要描述。 记录修正和验证过的方法,并说明其重要性。 勿保存代码库或对话历史中已存在的内容。 更新现有笔记而不要创建重复项。删除事后发现 错误的记录。”
五、长时间自主运行的可靠性保障:根除虚假进度汇报
Fable 5 能够自主运行数小时乃至数天,但长时间执行容易滋生虚假进度汇报。Anthropic 经测试发现,以下指令几乎根除了状态捏造的问题:
进度审计指令 “在报告进度前,必须逐条对照本次会话中的工具执行结果进行核实。只汇报你有证据支撑的工作;未经验证的部分要明确指出。测试失败就如实说失败,步骤跳过了就明说跳过,完成且验证过的直述结果,无需修饰。”
自主运行指令 “你正处于自主操作状态。用户不会实时监测,也无法中途回答问题。可逆操作直接推进,无需征询。在结束前检查输出的最后一段:若仍为计划、分析、提问或承诺,立刻执行相应的工具调用。”
六、从旧模型迁移至 Fable 5 的四大避坑要点
从 Opus 4.8 或更早版本迁移时,有四个高频误区需特别留意:
- 旧技能文件恐成累赘:为旧模型精心撰写的详细指令,放到 Fable 5 上反倒可能拉低输出质量。官方明确建议:“删掉那些默认表现已经足够好的陈旧指令。”
- 切勿要求模型复述推理:在提示中加入“写出你的思考过程”会触发安全分类器的 reasoning_extraction 拒绝类别,导致模型回退至 Opus 4.8。若需查看推理,请改用 adaptive thinking 提供的 thinking blocks。
- 调整客户端超时设置:一次请求运行数分钟属于常态,同步阻塞等待会引发客户端超时。应切换为异步检查或定时任务查询运行状态。
- 不向模型暴露上下文预算:Fable 5 看到剩余 token 数时,可能主动提议开启新会话或截断输出。可使用 reassure 指令:“你拥有充裕的上下文。请勿因上下文限制而中止、总结或建议新会话。”
七、典型应用场景与当前边界
Fable 5 天生适合那些你过去不敢交给 AI 的棘手挑战。Anthropic 直言:如果只在简易任务上测评,那它真正的本领根本无从显现。
但也需留意几项限制:安全分类器在涉及网络安全、生物、化学等高风险话题时会回退至 Opus 4.8(影响不到 5% 的对话),且可能误触发于无害的安全研究与有益的生物任务。其定价约为 Opus 4.8 的两倍,建议善用 prompt caching(输入 token 仅原价一成)。截至 6 月 22 日,Pro/Max/Team/Enterprise 用户可免费使用,之后将按 API 标准计费。
本文核心内容源于 Anthropic 官方文档《Prompting Claude Fable 5》(platform.claude.com/docs)与《Claude Fable 5 and Claude Mythos 5》(anthropic.com/news)。