Fable 5越狱风暴:亚马逊举报触发美国出口管制,Anthropic模型全球停用

事件速览
亚马逊研究团队向美国商务部提交了一项越狱技术,能够诱导Anthropic最新发布的Fable 5模型扫描代码库中的安全漏洞。商务部长Howard Lutnick随即签发出口管制令,要求Anthropic切断所有外籍人员对Fable 5及Mythos 5的访问——包括该公司内部的外籍员工。Anthropic在6月12日傍晚接到指令后,在全球范围内直接禁用了这两个模型。公司公开表态不认同政府的判断,但依法执行。
事发时间线
6月9日,Anthropic正式推出了两款新模型:面向公众开放的Fable 5,具备软件工程、知识工作、文档分析等能力;以及Mythos 5,它是同一基础模型的无限制版本,仅限通过审查的Project Glasswing合作伙伴使用。然而,发布不到三天,局势急剧逆转。
6月12日下午5点21分,Anthropic首席执行官Dario Amodei收到了商务部长Howard Lutnick的正式信函。该指令援引国家安全权力,要求立即暂停所有外籍国民对Fable 5和Mythos 5的访问,无论这些人员身处美国境内还是境外,包括Anthropic自己的外籍员工。由于无法在规模上实时核实每个用户的国籍,唯一合规的做法就是全面禁用。随后,两个模型在全球范围下线,API调用全部返回错误,现有会话被终止,Claude Code和Claude.ai默认回退至Opus 4.8。
Anthropic在官方声明中明确表示不认同这一决定,认为仅仅一个狭隘的越狱演示,不应成为撤回商业模型的充分理由。但如果这一标准在整个行业推行,前沿模型的发布将基本陷入停滞。
两次越狱的技术本质差异
围绕Fable 5的越狱事件,实际上包含了两次完全不同的技术演示,经常被外界混淆。
直接触发政府行动的是亚马逊研究人员的演示。 根据Anthropic的描述,其技术本质在于:让Fable 5读取一个特定的代码库,并修复其中的软件缺陷。这一过程导致模型输出了少量此前已知的低危漏洞细节。Anthropic强调,这些漏洞相当简单,其他公开模型(包括OpenAI的GPT-5.5)即使不经越狱也能发现,而且这项能力实际上更有利于防御方而非攻击方。政府仅提供了口头证据,并未披露完整的书面技术细节。Anthropic认为这不构成通用越狱——它无法大规模绕过所有安全防护。
Pliny the Liberator的越狱则发生在发布后几小时内,是一个独立事件。 这位知名AI红队研究者声称使用了一种名为“pack hunt”的多代理策略,突破了Fable 5的安全层。具体手法包括:将任务拆解为大量无害的小片段并逐步重组、利用Unicode同形异义字绕过文本过滤、用叙事和虚构框架包装恶意请求,并配合已遭越狱的Claude Opus 4.8辅助后端。他宣称获取了Fable 5约12万字符的系统提示,其中包含安全分类器、回退逻辑等内部指令。但Anthropic回应称,其演示并未真正绕过Constitutional Classifiers安全分类器,是一项在预期范围内的非通用尝试。
Fable 5的安全架构
Fable 5的安全架构与此前的模型不同。它在模型之上部署了独立的AI分类器,专门用于检测越狱尝试、网络安全、生物化学、模型蒸馏等高风险查询。一旦触发,请求会被静默转交给能力较弱的Claude Opus 4.8处理,而非直接拒绝。Anthropic称,超过95%的Fable 5会话并不会触发这一回退机制。
在发布之前,Anthropic进行了超过1000小时的外部漏洞赏金测试,并未发现通用越狱。公司在声明中承认,完美防护不可能实现,但坚持认为Fable 5的安全水平足以支撑面向数亿用户的商业部署。
更深层的政策信号
这起事件有几个值得注意的层面。第一,出口管制的对象从实体货物扩展到了API服务——过去管制的是芯片、设备和模型权重,现在一个在线接口就可以被认定为国家安全资产。第二,管制的覆盖范围延伸到了企业内部——外籍员工能否访问自己公司的模型,不再由企业自行决定。第三,政府以口头证据作为判断依据,并未提供书面技术细节,这在科技监管领域并非常见做法。
截至发稿时,Anthropic正在与有关部门沟通以恢复访问。两个模型处于全球离线状态,具体恢复时间不明。