AI工程师的模型责任：超越准确率，构建可观测的AI系统

April 5, 2026

上周，我们AI训练营的第一批学员（1班和2班）正式毕业了。课程最终收获了平均80分的评价，最低分70，最高分95，甚至还出现了几位主动推荐新学员的情况。这让我如释重负，总算没有被大家看作是“割韭菜”的行为。

特别想分享的是，其中一位产品负责人学员发出的感慨：

我现在终于明白，为什么以前总搞不懂公司里那帮程序员在忙什么了。他们在设计技术架构时，采用的是一种“AI Max”的思维模式：

某个开源技术不行就立马换另一个，单智能体效果不佳就尝试多智能体。把所有能试的都试过一遍后，得出结论：AI的能力上限就到这里了，没有优化空间了，只能等待更新的技术开源出来，然后再重复一遍这个过程。

我有时实在好奇，会追问他们如何量化这个所谓的“上限”、有没有系统性的方法论？而程序员的回答往往是：这没法量化，也无法沉淀经验，无非是拿别人的东西跑一下试试看。

我总觉得哪里不对劲，但由于自身不懂技术，也说不出个所以然，只能听之任之。现在好了，既然这条路确实走不通，那就换我来给他们设计技术路径！

实际上，上述场景正是当下许多公司共同面临的困境：由于AI项目的入门门槛看似很低，导致整个团队可能没有一个人真正理解AI项目的内核，也能勉强做出一个70分的产品。然而，当需要从70分优化到80分时，整个项目就陷入了僵局…

根据过往的经验，这样的一次试错，成本少则50万，多则甚至上千万。通常到了第三次尝试时，AI技术负责人就不得不亲自下场，深入探索真正合适的技术路径，而这个过程的成本，至少以100万元为起点…

于是问题接踵而至：公司投入百万的AI项目，看起来却像个玩具。当你询问技术负责人如何改进时，对方往往一脸茫然，最终抛出一句：“当前模型的能力就是这样了，我也没办法。”

最终的结果是，众多企业老板对AI的期望值大幅降低，认为泡沫过大，不愿继续投入。因此，从2025年至今，超过80%的公司都停留在搭建各种自动化工作流的层面，根本没有勇气涉足AI项目的“深水区”。

这些“深水区”至少包含以下三个核心层面：

第一，认知的知识化。 如何将模糊的业务认知整理成结构化的知识；或者，在已有知识的情况下，如何有效地组织相关数据。
第二，数据与AI的协同交互。 如何确保AI每次都能获取到最相关的数据。当发现因数据不足导致的AI问题时，如何利用生产环境中产生的数据反馈来优化知识库——这正是我们常说的“数据飞轮”系统，它是数据工程的一个重要分支。
第三，意图的精准识别。 理解用户或系统真实意图的终极关卡。

如果要将这个“深水区”进一步精炼、浓缩成面试中的一句话，那便是：定义AI项目的模型边界，或者说，建立AI项目的可观测性。这里的可观测性，正是各位技术负责人苦苦追寻的、清晰可靠的技术路径。

只不过，这句话背后涉及一连串复杂的背景知识。那么，有没有更简单的理解方式呢？答案是肯定的！

理解可观测性：从准确率到可追溯性

最近在给学员授课时，我最常强调的一句话是：构建AI应用，必须深刻理解模型的边界！ 这里所说的模型边界，关联着AI应用的两种主流思想：

AI Max 流派：凡是能用AI解决的，就绝不用其他方法。
AI Min 流派：凡是能不用AI解决的，就尽量不用AI。

这三句简单的概括，直接指向了RAG技术先驱之一Douwe Kiela的核心观点：应更关注AI项目的可观测性，而不仅仅是准确性。

在AI项目中，可观测性比单纯的准确率更为重要。在确保基础准确率达标后，重点应转向归因追溯、审计追踪和错误分析，进而建立反馈与监控的闭环系统，以保证合规性并驱动持续改进。

在AI项目中，追求100%的准确率几乎是不可能的。即使能达到90%或95%，企业现在更关心的是如何处理那缺失的5%或10%——即出错的部分。当错误发生时，我们该如何应对？

除了基础准确性，关键在于如何管理这种“不准确性”，这就需要强大的可观测性。我们必须能仔细评估系统表现，并确保存在适当的审计追踪机制，这在受监管的行业中尤为重要。

而这里所强调的可观测性，只有在 “能不用AI就不用AI” 的模式下才真正可行。其背后体现的正是对模型边界的深刻认知：追求完美准确率是不现实的，关键是要知道错在哪里、为什么会错、以及如何改正！并且能够证明整个技术框架是闭环且可复现的！

而这里的 “哪里错、为什么错、怎么改”，恰恰是前文所述众多技术负责人难以回答的问题。今天，我们就通过一个简单的案例来解释：什么是‘能用AI就用AI’，什么是‘能不用AI就不用AI’，以及什么才是AI项目的可观测性。

界定模型边界：一个排班系统的启示

此前AI课程学员众多，需要一个排班系统。基本需求如下：

学员在微信群中发出自己每天的空闲时间段，由AI自动统计出大家共同的空闲时间，如果满足开课条件，则自动预约会议。 学员在群内的聊天记录模拟如下：

A：20.00-22.00有空  
B：18-20点没空，其他都可以  
C：二十点后可以；  
D：下午4点前没空；  
E：我随便了，都行；

当然，实际系统还会包含多次提醒、少数服从多数的协调、以及建议学员调整时间等功能，但核心需求就是一个时间匹配算法。

就是这样一个简单的系统，足以清晰地阐释 “模型边界” 的概念。

首先，让我们看看“能用AI就AI”的技术路径：

路径一：最大化使用AI（AI Max）

如果全部交给AI处理，方法非常简单：直接将所有聊天记录扔给大模型，并附加一句指令：“请根据以上对话，推荐今天适合安排上课的时间段。”

这是GPT给出的回答：

这是DeepSeek给出的回答：

在简单场景下，“能用AI就AI” 往往是最优解。包括许多智能体（如一些自动化工具）在处理简单任务时，表现确实可圈可点。

接下来，我们看看“能不用AI就不用AI”的路径：

路径二：最小化使用AI（AI Min）

所谓最小化使用AI，就是只在不得不使用AI的环节才使用它。在这个案例中，不得不使用AI的环节就是**“语义理解与关键词提取”**——即识别并解析每位学员表达的空闲时间。

经过AI解析，我们可以得到结构化的时间数据：

A：空闲时间为 20:00 - 22:00。
B：18:00 - 20:00 没空，其他时间空闲。
C：二十点后可以，即 20:00 之后空闲。
D：下午4点前没空，即 16:00 之后空闲。
E：所有时间都空闲。

获取到结构化的空闲时间数据后，剩余的“寻找共同空闲时间”等逻辑，完全可以用确定性更高的传统算法来实现。这里立刻引出了另一个关键问题：在最小化AI应用的场景中，究竟何时才“必须”使用AI？

核心原则：应对泛化需求

答案很明确：当面对高度泛化的场景时，必须使用AI。 例如上面ABCDE各式各样的时间表述，很难用固定的正则表达式规则完美匹配。这类从非结构化自然语言中提取关键信息（关键知识）的任务，目前只能依赖AI。

类似的场景还有：我要求学员的昵称格式必须是 “学号-昵称-城市”，但学员们总会创造出五花八门的格式，例如 “学号_昵称_城市”、“城市_学号_昵称”、“学号昵称@城市” 等等。

对于这种用户自由输入后需要规范化处理的场景，AI也能快速、高效地完成修正。 所有此类泛化要求高、规则难以穷举的场景，往往都是AI必须出场且能表现出色的领域。

那么，什么又是“模型能力的可观测性”呢？

可观测性的体现

答案同样直接：如果出现AI无法识别的情况，系统能够快速发现这一问题，并提供明确的解决路径。

假设现在出现了一位学员F，他给出了一个非常规的回答：“戌亥之时，余有暇。”（意为“晚上7点到11点，我有空”）

面对这种文言文表述，模型很可能无法正确识别，从而导致排班系统出错。在 “能不用AI就不用AI” 的模式下，这个“识别失败”的环节可以被明确监控和定位。这种“能够被明确识别并规划优化方案”的特性，就是我们所说的 “模型能力可观测”。

随之而来的最后一个问题是：如何优化？

优化策略

一旦发现问题，优化方案就很清晰了。最简单的做法是进行“提示词工程”：将 “戌亥之时” 与对应的现代时间 “19:00-23:00” 的映射关系，作为知识补充到给模型的指令中。

如果希望系统的泛化能力更强，则可以启动“后训练”流程，可以是微调（Fine-tuning），也可以是强化学习（RL），原理是相通的。

以上便是对“模型边界”这一概念最为简化的描述。当然，真实的业务场景要比这复杂得多。

演进逻辑：从可观测性到数据工程

其实，敏锐的读者已经发现，在这个案例中，“最大化使用模型”与“最小化使用模型” 的界限并不绝对。以最小化使用思路优化后的模型（例如经过特定数据训练后），其能力完全可以被“最大化使用”的架构所调用。

两者之间最根本的差异在于：是否建立了这套“可观测”的机制。而可观测机制最终落地，多半会指向扎实的“数据工程”。

AI应用的终极归宿，都是数据工程。数据的价值在于，它能配合“最小化模型应用”的思路，将关键环节的准确率从90%提升至99%。在这个坚实的基础上，我们才能安全地切换至“最大化模型应用”，以增强整个AI系统的综合泛化能力。

学员排班系统虽然简单，但其背后所体现的 “模型边界意识”、“能用/不用AI的决策智慧”以及“可观测性优先” 的理念，正是构建可靠、可投产级别AI应用的基石！

这套逻辑在教育、法律、金融、医疗等对准确性、合规性、可解释性要求极高的领域，显得尤为重要。而其持续演进的核心驱动力，正是数据工程。

让我们看一个更复杂的例子：

AI边界与数据飞轮：以合同审批为例

合同审批对于稍具规模的公司而言都是令人头疼的难题，文本冗长、法规繁杂、要求零容错等都是巨大挑战。

第一阶段：最小化模型应用

在此场景下，对模型最核心的要求是执行 “高确定性的动作”：

精准抽取关键字段（如金额、签约方、法律适用地等），要求F1值不低于0.98。
规则引擎比对：将抽取的条款与预设的白名单条款库进行比对，要求覆盖率不低于95%。
异常熔断机制：遇到模型无法识别的全新条款类型时，系统自动转交人工处理，并要求每日的“转人工率”不高于0.5%。

第二阶段：最大化模型应用

当上述基础链路稳定运行（如整体精度>99%）后，可以逐步解锁大模型的高阶能力：

自动生成合同风险摘要报告（含改写建议与相关法条链接）。
智能追踪合同多版本之间的差异。
自动草拟初步的谈判沟通邮件。

在拥有了以上稳定基础后，便可以启动“数据飞轮”：

飞轮系统的运转

此阶段，应用可观测性的成果直接表现为各类错误数据的有效收集与利用：

错误样本沉淀：每次模型解析失败或人工复核更正的条款，都会被标注并转化为〈错误样本-正确答案〉数据对。
指标实时监控：设立看板，监控如“字段缺失率超过0.5%”则触发警报，“AI判断结果与规则引擎结果冲突率超过0.1%”则启动双重复核流程。

在实现理念上与上述排班系统类似，只是复杂度更高。具体而言，可聚焦于四个关键点：

错误转化链路：建立从“人工修正”到“自动生成训练数据对”再到“对抗样本增强”的自动化流水线。
精准定向训练：按照错误类型（如“赔偿条款误判”、“数据跨境条款遗漏”）建立分库，进行小模块的靶向微调，而非全模型重训。
闭环验证体系：新模型上线前，必须在历史错误样本集上测试复发率；采用影子模式进行并行验证；并始终监控核心业务指标。
全链路溯源机制：为每份合同生成唯一追踪码，贯穿“原始数据 -> 模型处理 -> 最终决策”的全过程，确保任何问题可追溯。

系统自动捕获合同审核中的AI错误（例如条款类型误判、法律引用失效），并触发人工复核流程。法务人员在专用界面进行修正时，系统同步生成训练数据对，并打上错误类型标签。

这些数据随后进入自动化处理管道：首先进行清洗，去除无效样本；随后通过算法生成对抗性变体（例如将误判的条款改写成不同的表述）。处理后的数据按类型归档至专项训练库，如“赔偿条款误判库”或“数据跨境条款库”。

模型更新采用敏捷的靶向训练策略：每周或每两周，选取特定错误类型的专库数据，对基础模型进行轻量化的增量微调。新模型上线前，必须确保其在历史错误样本集上的复发率低于既定阈值…

更多深入的细节，就需要各位在实践中自行探索与理解了，阐述过多恐怕就要泄露全部“商业机密”了。

结语：在最小化与最大化之间寻求平衡

当前AI行业深受“智能体即一切”思维的影响，总是渴望一步到位，各种宣传倾向于“模型即解决方案”，这种思路其实存在误区。

真正能够落地、创造价值的AI应用，并非在 “全部交给模型” 和 “完全依赖规则” 之间做二选一，而是在 “最小化模型使用” 与 “最大化模型使用” 之间，构建一条以 “可观测性” 为核心演进主轴的发展曲线：

首先，利用小而精的AI能力攻克泛化难题，同时配以明确的监控指标、可追溯的处理链路以及数据飞轮，持续将错误转化为系统的增量知识资产。当基础链路的稳定性和准确率达到极高水准（如99%以上）时，再逐步释放大模型的创造性潜能与广谱泛化能力。

当然，以上所述仅为一家之言，仅供各位参考与探讨。