AI工程师的模型责任:超越准确率,构建可观测的AI系统
上周,我们AI训练营的第一批学员(1班和2班)正式毕业了。课程最终收获了平均80分的评价,最低分70,最高分95,甚至还出现了几位主动推荐新学员的情况。这让我如释重负,总算没有被大家看作是“割韭菜”的行为。
特别想分享的是,其中一位产品负责人学员发出的感慨:
我现在终于明白,为什么以前总搞不懂公司里那帮程序员在忙什么了。他们在设计技术架构时,采用的是一种“AI Max”的思维模式:
某个开源技术不行就立马换另一个,单智能体效果不佳就尝试多智能体。把所有能试的都试过一遍后,得出结论:AI的能力上限就到这里了,没有优化空间了,只能等待更新的技术开源出来,然后再重复一遍这个过程。
我有时实在好奇,会追问他们如何量化这个所谓的“上限”、有没有系统性的方法论?而程序员的回答往往是:这没法量化,也无法沉淀经验,无非是拿别人的东西跑一下试试看。
我总觉得哪里不对劲,但由于自身不懂技术,也说不出个所以然,只能听之任之。现在好了,既然这条路确实走不通,那就换我来给他们设计技术路径!
实际上,上述场景正是当下许多公司共同面临的困境:由于AI项目的入门门槛看似很低,导致整个团队可能没有一个人真正理解AI项目的内核,也能勉强做出一个70分的产品。然而,当需要从70分优化到80分时,整个项目就陷入了僵局…
根据过往的经验,这样的一次试错,成本少则50万,多则甚至上千万。通常到了第三次尝试时,AI技术负责人就不得不亲自下场,深入探索真正合适的技术路径,而这个过程的成本,至少以100万元为起点…
于是问题接踵而至:公司投入百万的AI项目,看起来却像个玩具。当你询问技术负责人如何改进时,对方往往一脸茫然,最终抛出一句:“当前模型的能力就是这样了,我也没办法。”
最终的结果是,众多企业老板对AI的期望值大幅降低,认为泡沫过大,不愿继续投入。因此,从2025年至今,超过80%的公司都停留在搭建各种自动化工作流的层面,根本没有勇气涉足AI项目的“深水区”。
这些“深水区”至少包含以下三个核心层面:
- 第一,认知的知识化。 如何将模糊的业务认知整理成结构化的知识;或者,在已有知识的情况下,如何有效地组织相关数据。
- 第二,数据与AI的协同交互。 如何确保AI每次都能获取到最相关的数据。当发现因数据不足导致的AI问题时,如何利用生产环境中产生的数据反馈来优化知识库——这正是我们常说的“数据飞轮”系统,它是数据工程的一个重要分支。
- 第三,意图的精准识别。 理解用户或系统真实意图的终极关卡。
如果要将这个“深水区”进一步精炼、浓缩成面试中的一句话,那便是:定义AI项目的模型边界,或者说,建立AI项目的可观测性。这里的可观测性,正是各位技术负责人苦苦追寻的、清晰可靠的技术路径。
只不过,这句话背后涉及一连串复杂的背景知识。那么,有没有更简单的理解方式呢?答案是肯定的!
理解可观测性:从准确率到可追溯性
最近在给学员授课时,我最常强调的一句话是:构建AI应用,必须深刻理解模型的边界! 这里所说的模型边界,关联着AI应用的两种主流思想:
- AI Max 流派:凡是能用AI解决的,就绝不用其他方法。
- AI Min 流派:凡是能不用AI解决的,就尽量不用AI。
这三句简单的概括,直接指向了RAG技术先驱之一Douwe Kiela的核心观点:应更关注AI项目的可观测性,而不仅仅是准确性。
在AI项目中,可观测性比单纯的准确率更为重要。在确保基础准确率达标后,重点应转向归因追溯、审计追踪和错误分析,进而建立反馈与监控的闭环系统,以保证合规性并驱动持续改进。
在AI项目中,追求100%的准确率几乎是不可能的。即使能达到90%或95%,企业现在更关心的是如何处理那缺失的5%或10%——即出错的部分。当错误发生时,我们该如何应对?
除了基础准确性,关键在于如何管理这种“不准确性”,这就需要强大的可观测性。我们必须能仔细评估系统表现,并确保存在适当的审计追踪机制,这在受监管的行业中尤为重要。
而这里所强调的可观测性,只有在 “能不用AI就不用AI” 的模式下才真正可行。其背后体现的正是对模型边界的深刻认知:追求完美准确率是不现实的,关键是要知道错在哪里、为什么会错、以及如何改正!并且能够证明整个技术框架是闭环且可复现的!
而这里的 “哪里错、为什么错、怎么改”,恰恰是前文所述众多技术负责人难以回答的问题。今天,我们就通过一个简单的案例来解释:什么是‘能用AI就用AI’,什么是‘能不用AI就不用AI’,以及什么才是AI项目的可观测性。
界定模型边界:一个排班系统的启示
此前AI课程学员众多,需要一个排班系统。基本需求如下:
学员在微信群中发出自己每天的空闲时间段,由AI自动统计出大家共同的空闲时间,如果满足开课条件,则自动预约会议。 学员在群内的聊天记录模拟如下:
A:20.00-22.00有空
B:18-20点没空,其他都可以
C:二十点后可以;
D:下午4点前没空;
E:我随便了,都行;
当然,实际系统还会包含多次提醒、少数服从多数的协调、以及建议学员调整时间等功能,但核心需求就是一个时间匹配算法。
就是这样一个简单的系统,足以清晰地阐释 “模型边界” 的概念。
首先,让我们看看“能用AI就AI”的技术路径:
路径一:最大化使用AI(AI Max)
如果全部交给AI处理,方法非常简单:直接将所有聊天记录扔给大模型,并附加一句指令:“请根据以上对话,推荐今天适合安排上课的时间段。”
这是GPT给出的回答:

这是DeepSeek给出的回答:

在简单场景下,“能用AI就AI” 往往是最优解。包括许多智能体(如一些自动化工具)在处理简单任务时,表现确实可圈可点。
接下来,我们看看“能不用AI就不用AI”的路径:
路径二:最小化使用AI(AI Min)
所谓最小化使用AI,就是只在不得不使用AI的环节才使用它。在这个案例中,不得不使用AI的环节就是**“语义理解与关键词提取”**——即识别并解析每位学员表达的空闲时间。
经过AI解析,我们可以得到结构化的时间数据:
- A:空闲时间为 20:00 - 22:00。
- B:18:00 - 20:00 没空,其他时间空闲。
- C:二十点后可以,即 20:00 之后空闲。
- D:下午4点前没空,即 16:00 之后空闲。
- E:所有时间都空闲。
获取到结构化的空闲时间数据后,剩余的“寻找共同空闲时间”等逻辑,完全可以用确定性更高的传统算法来实现。这里立刻引出了另一个关键问题:在最小化AI应用的场景中,究竟何时才“必须”使用AI?
核心原则:应对泛化需求
答案很明确:当面对高度泛化的场景时,必须使用AI。 例如上面ABCDE各式各样的时间表述,很难用固定的正则表达式规则完美匹配。这类从非结构化自然语言中提取关键信息(关键知识)的任务,目前只能依赖AI。
类似的场景还有:我要求学员的昵称格式必须是 “学号-昵称-城市”,但学员们总会创造出五花八门的格式,例如 “学号_昵称_城市”、“城市_学号_昵称”、“学号昵称@城市” 等等。
对于这种用户自由输入后需要规范化处理的场景,AI也能快速、高效地完成修正。 所有此类泛化要求高、规则难以穷举的场景,往往都是AI必须出场且能表现出色的领域。
那么,什么又是“模型能力的可观测性”呢?
可观测性的体现
答案同样直接:如果出现AI无法识别的情况,系统能够快速发现这一问题,并提供明确的解决路径。
假设现在出现了一位学员F,他给出了一个非常规的回答:“戌亥之时,余有暇。”(意为“晚上7点到11点,我有空”)
面对这种文言文表述,模型很可能无法正确识别,从而导致排班系统出错。在 “能不用AI就不用AI” 的模式下,这个“识别失败”的环节可以被明确监控和定位。这种“能够被明确识别并规划优化方案”的特性,就是我们所说的 “模型能力可观测”。
随之而来的最后一个问题是:如何优化?
优化策略
一旦发现问题,优化方案就很清晰了。最简单的做法是进行“提示词工程”:将 “戌亥之时” 与对应的现代时间 “19:00-23:00” 的映射关系,作为知识补充到给模型的指令中。
如果希望系统的泛化能力更强,则可以启动“后训练”流程,可以是微调(Fine-tuning),也可以是强化学习(RL),原理是相通的。
以上便是对“模型边界”这一概念最为简化的描述。当然,真实的业务场景要比这复杂得多。
演进逻辑:从可观测性到数据工程
其实,敏锐的读者已经发现,在这个案例中,“最大化使用模型”与“最小化使用模型” 的界限并不绝对。以最小化使用思路优化后的模型(例如经过特定数据训练后),其能力完全可以被“最大化使用”的架构所调用。
两者之间最根本的差异在于:是否建立了这套“可观测”的机制。而可观测机制最终落地,多半会指向扎实的“数据工程”。
AI应用的终极归宿,都是数据工程。数据的价值在于,它能配合“最小化模型应用”的思路,将关键环节的准确率从90%提升至99%。在这个坚实的基础上,我们才能安全地切换至“最大化模型应用”,以增强整个AI系统的综合泛化能力。
学员排班系统虽然简单,但其背后所体现的 “模型边界意识”、“能用/不用AI的决策智慧”以及“可观测性优先” 的理念,正是构建可靠、可投产级别AI应用的基石!
这套逻辑在教育、法律、金融、医疗等对准确性、合规性、可解释性要求极高的领域,显得尤为重要。而其持续演进的核心驱动力,正是数据工程。
让我们看一个更复杂的例子:
AI边界与数据飞轮:以合同审批为例
合同审批对于稍具规模的公司而言都是令人头疼的难题,文本冗长、法规繁杂、要求零容错等都是巨大挑战。
第一阶段:最小化模型应用
在此场景下,对模型最核心的要求是执行 “高确定性的动作”:
- 精准抽取关键字段(如金额、签约方、法律适用地等),要求F1值不低于0.98。
- 规则引擎比对:将抽取的条款与预设的白名单条款库进行比对,要求覆盖率不低于95%。
- 异常熔断机制:遇到模型无法识别的全新条款类型时,系统自动转交人工处理,并要求每日的“转人工率”不高于0.5%。
第二阶段:最大化模型应用
当上述基础链路稳定运行(如整体精度>99%)后,可以逐步解锁大模型的高阶能力:
- 自动生成合同风险摘要报告(含改写建议与相关法条链接)。
- 智能追踪合同多版本之间的差异。
- 自动草拟初步的谈判沟通邮件。
在拥有了以上稳定基础后,便可以启动“数据飞轮”:
飞轮系统的运转
此阶段,应用可观测性的成果直接表现为各类错误数据的有效收集与利用:
- 错误样本沉淀:每次模型解析失败或人工复核更正的条款,都会被标注并转化为〈错误样本-正确答案〉数据对。
- 指标实时监控:设立看板,监控如“字段缺失率超过0.5%”则触发警报,“AI判断结果与规则引擎结果冲突率超过0.1%”则启动双重复核流程。
在实现理念上与上述排班系统类似,只是复杂度更高。具体而言,可聚焦于四个关键点:
- 错误转化链路:建立从“人工修正”到“自动生成训练数据对”再到“对抗样本增强”的自动化流水线。
- 精准定向训练:按照错误类型(如“赔偿条款误判”、“数据跨境条款遗漏”)建立分库,进行小模块的靶向微调,而非全模型重训。
- 闭环验证体系:新模型上线前,必须在历史错误样本集上测试复发率;采用影子模式进行并行验证;并始终监控核心业务指标。
- 全链路溯源机制:为每份合同生成唯一追踪码,贯穿“原始数据 -> 模型处理 -> 最终决策”的全过程,确保任何问题可追溯。
系统自动捕获合同审核中的AI错误(例如条款类型误判、法律引用失效),并触发人工复核流程。法务人员在专用界面进行修正时,系统同步生成训练数据对,并打上错误类型标签。
这些数据随后进入自动化处理管道:首先进行清洗,去除无效样本;随后通过算法生成对抗性变体(例如将误判的条款改写成不同的表述)。处理后的数据按类型归档至专项训练库,如“赔偿条款误判库”或“数据跨境条款库”。
模型更新采用敏捷的靶向训练策略:每周或每两周,选取特定错误类型的专库数据,对基础模型进行轻量化的增量微调。新模型上线前,必须确保其在历史错误样本集上的复发率低于既定阈值…
更多深入的细节,就需要各位在实践中自行探索与理解了,阐述过多恐怕就要泄露全部“商业机密”了。
结语:在最小化与最大化之间寻求平衡
当前AI行业深受“智能体即一切”思维的影响,总是渴望一步到位,各种宣传倾向于“模型即解决方案”,这种思路其实存在误区。
真正能够落地、创造价值的AI应用,并非在 “全部交给模型” 和 “完全依赖规则” 之间做二选一,而是在 “最小化模型使用” 与 “最大化模型使用” 之间,构建一条以 “可观测性” 为核心演进主轴的发展曲线:
首先,利用小而精的AI能力攻克泛化难题,同时配以明确的监控指标、可追溯的处理链路以及数据飞轮,持续将错误转化为系统的增量知识资产。当基础链路的稳定性和准确率达到极高水准(如99%以上)时,再逐步释放大模型的创造性潜能与广谱泛化能力。
当然,以上所述仅为一家之言,仅供各位参考与探讨。