2026年AI工程新范式:揭秘Agent核心驱动层——Harness
在构建AI智能体(Agent)的领域,业界长期以来围绕三种主要架构路径展开讨论:SDK、Frameworks和Scaffolding。这三种方式分别代表了灵活性与结构性光谱上的不同位置,各自拥有其独特的适用场景。
然而,进入2026年,一种全新的第四种模式悄然兴起,它直接构建在上述三种架构之上——它被称为 Harness。OpenAI和Anthropic等领先机构都已正式采用这一术语。Martin Fowler曾撰文深入分析,arXiv上亦有论文给出了其形式化定义。这并非一个凭空炒作的流行词,而是那个长期缺位、却最终决定AI智能体能否在生产环境中稳健运行的核心架构层。
重新定义:Harness的本质是什么?
首先需要明确一个关键点:Harness并非智能体本身。
它是管理智能体如何运行的一整套软件系统,负责处理其完整的生命周期——包括工具调用、内存管理、失败重试、人工审批介入、上下文工程优化以及子智能体的调度等。它的存在让大语言模型能够专注于其最擅长的推理工作,而将所有繁杂的“后勤”事务交由Harness处理。
Philipp Schmid使用了一个非常贴切的计算机类比来解释这一概念:

在这个比喻中,大模型相当于原始的CPU处理能力,上下文窗口是有限的工作内存(RAM),而Harness则扮演着操作系统的角色——负责管理上下文切换、初始化任务序列、驱动标准工具接口。智能体则是运行在这一整套基础架构之上的最终应用程序。这个比喻精准地厘清了各组件之间的层次关系。
厘清关系:Harness如何补全技术栈?
SDK、Scaffolding和Framework共同回答了一个核心问题:如何将AI智能体构建出来?
Harness则面向一个截然不同的问题:智能体构建完成之后,如何确保它能够安全、稳定、高效地持续运行?

这两者并非替代关系,而是互补共存。你完全可以使用Framework来构建一个Harness系统,它们处于技术栈的不同层次。这四种方式的对比如下图所示:

核心架构:Harness的六大组件
根据parallel.ai团队的梳理,并结合OpenAI与Anthropic官方发布的内容,一个成熟的Harness系统通常包含以下六个核心组件:

- 工具集成层:通过预定义的协议,将大模型与外部API、数据库、代码执行环境及各类自定义工具无缝连接起来。
- 内存与状态管理:构建多层记忆体系,包括工作上下文、会话状态和长期记忆,实现在单个上下文窗口之外的持久化状态管理。例如,Anthropic采用“进度文件”和git历史记录来桥接不同会话,确保智能体在任务切换后仍能知晓自身所处位置和已完成进度。
- 上下文工程与提示管理:超越静态的提示模板,能够根据当前任务状态动态决策每次调用模型时应注入哪些信息,实现信息的主动筛选与优化。
- 规划与任务分解:引导模型将复杂目标拆解为结构化的任务序列,逐步推进,而非试图一次性解决所有问题。
- 验证与防护:集成格式验证、安全过滤及自我纠错循环。当智能体运行陷入停滞时,Harness将其视为一种需要补充信息的信号,而非直接抛出错误导致进程崩溃。
- 模块化与可扩展性:所有组件均采用插拔式设计,支持独立启用、关闭或替换,确保系统各部分修改互不影响,具备高度的灵活性。
实践洞察:生产环境中的Harness形态
Claude Code 便是一个典型的Harness实例。它负责读取整个代码库、管理文件系统访问权限、调度子智能体、编排工具调用、维护跨会话记忆,并内置了多种防护机制。开发者得以聚焦于核心编程任务,所有复杂的基础设施问题均由Harness妥善处理。
OpenAI Codex 的成功同样依赖于Harness工程方法。其团队运用这套架构,搭建了超过百万行代码的庞大项目,全程无需手动编码。Harness作为主要接口,当智能体遇到障碍时,反馈信息会直接回流至代码库,驱动上下文工程和架构约束的持续演进与优化。
在OpenAI的CUA(计算机使用)示例应用中,其Runner管理器处理的正是“截取屏幕 → 执行操作 → 验证结果 → 进入下一循环”的完整工作流闭环。模型专注于决策“做什么”,而Harness则确保这些决策能够被安全、准确地执行。
趋势演进:Framework层功能的分化与吸收
当前出现了一个显著趋势:传统Framework所处理的许多职责,正逐渐被模型自身能力所吸纳。
诸如智能体定义、消息路由、任务生命周期管理、依赖关系处理以及工作进程生成等功能,在过去需要开发者借助Framework实现,如今约80%已可由模型原生支持。剩余的20%——包括状态持久化、确定性重放、成本精细化控制、系统可观测性以及错误恢复机制——则恰好是Harness专注的领域。

因此,Framework层不仅在缩减,更在发生本质上的分化:智能与决策能力上移至模型层,而可靠的基础设施支撑则下沉至Harness层。
Harness与Framework的核心区别变得非常清晰:Framework指导开发者如何构建应用程序,而Harness则指导智能体如何安全运行。使用Framework时,开发者编写编排逻辑;使用Harness时,模型自主制定计划,Harness则作为安全护栏确保其不偏离轨道。

范式转变:AI智能体构建的新问题域
过去,业界核心问题是:应该选择哪个Framework?
如今,更为关键的问题演变为:我们的Harness应该设计成什么样子?
Harness的质量直接决定了智能体项目的成败。一个优秀的Harness能够有效管理人工审批流程、控制文件系统访问权限、编排工具链、调度子智能体、优化提示工程并维护完整的生命周期,以最少的干预避免灾难性失败的发生。
实施路径也愈加清晰务实:从构建稳定可靠的原子化工具开始,放手让模型进行任务规划,随后逐步引入防护机制、重试策略以及验证流程。这正是Harness工程化的基本演进思路。
特别形态:轻量级Markdown/Prompt Harness
值得一提的是 Markdown/Prompt Harness 这一特殊形态,例如Anthropic的CLAUDE.md技能文件。它将编排指令直接嵌入系统提示词或结构化的Markdown文档中。
在这种模式下,大语言模型自身充当了循环控制器——它读取并解析Harness中定义的规则,然后自主执行。当模型能力足够强大,能够进行有效的自我引导,且项目需要快速迭代、避免频繁修改底层代码时,这是一种极具吸引力的轻量级解决方案。