AI项目进阶：从‘能用就用’到‘能不用就不用’的模型边界思维

April 5, 2026

上周，AI训练营第一批学员正式毕业。最终课程平均评分达到80分，从最低70分到最高95分不等，甚至有几位学员主动推荐课程。这让我如释重负——总算没有被误解为“割韭菜”。

尤其想分享其中一位产品负责人的深刻感慨：

我终于明白，为什么过去总搞不懂公司里程序员们在做什么了。他们采用的技术架构思路是“AI Max”模式：一个开源方案不行就换另一个，单智能体效果不佳就转向多智能体。当所有方法都尝试过后，结论往往是‘AI的能力上限就到这里了，没有优化空间，等下一代新技术开源再说’。

我有时忍不住追问：你们如何量化这个所谓的上限？有没有系统化的过程和方法论？而他们的回答通常是：无法量化，也无法沉淀，都是拿现成的东西跑一遍而已。

我总觉得哪里不对劲，但苦于不懂技术，无法提出有力质疑，只能听之任之。现在好了，既然这条路确实走不通，那就由我来为他们设计技术路径！

实际上，上述场景正是许多公司面临的共性问题：由于AI项目的入门门槛极低，导致整个团队可能没有一个人真正理解AI项目的内核，也能拼凑出一个70分的产品。然而，当需要从70分优化到80分时，整个团队便束手无策。

根据过往经验，这类试错的成本，少则50万，多则上千万。通常，技术负责人在经历两三次失败后，才不得不真正深入探索可行的技术路径，而这一探索过程本身的成本，往往以百万元计。

于是，困境出现了：公司投入百万级别的AI项目，其产出却如同玩具般简陋。当你询问技术负责人如何改进时，他/她很可能一脸茫然，最终给出标准答案：“当前模型的能力就是这样了，我也没办法。”

最终的结果是，管理者们对AI的期望值大幅降低，认为行业泡沫过大，不愿持续投入。这也导致从2025年至今，超过80%的公司停留在搭建各种AI工作流的浅层应用，并未真正涉足AI项目的深水区。

这片深水区至少包含以下三个核心层面：

认知知识化与数据组织：如何将模糊的认知系统地整理为可用知识；或者，在已有知识的情况下，如何高效地组织相关数据。
数据交互与反馈循环：数据应如何与AI系统交互，以确保AI每次都能获取到最相关的信息。如何识别因数据不足导致的AI问题，并利用生产数据构建反馈系统来持续优化知识库——这正是我们常说的“数据飞轮”，它是数据工程的一个重要分支。
意图识别：理解用户或系统的真实意图，这是实现精准响应的最后一道关卡。

如果要将这个“深水区”进一步提炼，浓缩成面试中的一句话，那便是：定义AI项目的模型边界，或者说，构建AI项目的可观测性。 这里的可观测性，正是无数技术负责人苦苦追寻的、清晰可落地的技术路径。

然而，这句话背后隐含着一系列复杂的背景知识。那么，是否存在一种更简单的理解方式呢？答案是肯定的。

可观测性

近期授课时，我反复强调一个观点：开发AI应用，必须理解模型的能力边界！ 这里的“模型边界”引出了AI应用的两大基本流派：

AI Max：凡是能用AI解决的，就尽可能使用AI。
AI Min：凡是能不用AI解决的，就尽量避免使用AI。

这三句简单的概括，直接指向了RAG技术先驱之一Douwe Kiela的核心思想：关注AI项目的可观测性，而不仅仅是准确性。

在AI项目中，可观测性比单纯追求准确率更为重要。 在确保基础准确率达标之后，重点应转向对错误的归因追溯、全流程的审计追踪以及系统性错误分析。进而，需要建立反馈闭环与监控系统，确保项目合规并实现持续改进。

在AI项目中，追求100%的准确率几乎是不可能完成的任务。即便能达到90%或95%的准确率，企业当下更关心的是如何处理那缺失的5%或10%——即出错的部分。当错误发生时，我们该如何应对？

除了基础准确性外，关键在于如何管理和应对“不准确”，这就需要引入可观测性。我们必须能够系统性地评估模型表现，并确保存在恰当的审计追踪机制，尤其是在金融、医疗等受严格监管的行业。

而这里所强调的可观测性，只有在**“能不用AI就不用AI”** 的模式下才更容易实现。其背后体现的是对模型边界的深刻认知：追求完美的准确率不现实，核心是要知道错误发生在哪里、为什么会发生、以及如何改进！并且能够证明整个技术框架是闭环、可重复、可溯源的！

这里的 “哪里错、为什么错、怎么改”，恰恰是前文所述众多技术负责人难以回答的终极问题。今天，我们就通过一个简单的案例，来解释什么是‘能用AI就用AI’，什么是‘能不用AI就不用AI’，以及什么才是‘AI项目的可观测性’。

模型边界

此前AI课程学员较多，需要一个排班系统。基本需求如下： 学员在微信群中发出自己每日的空闲时间段，由AI自动统计出所有人都有空的时间，若满足条件则自动预约会议。 学员在群中的发言示例如下：

A：20.00-22.00有空  
B：18-20点没空，其他都可以  
C：二十点后可以；  
D：下午4点前没空；  
E：我随便了，都行；

当然，实际系统会包含更多功能，如提醒、少数服从多数的协调规则等，但其核心就是一个时间匹配算法。

一个看似简单的需求，却足以清晰地阐释模型边界的概念。首先，我们来看“能用AI就AI”的技术路径。

一、能用AI就AI

采用全AI方案非常简单，只需将所有聊天记录一股脑地输入给大模型，并附加指令：“请问今天我该安排什么时间上课？”

GPT的回答示例：

DeepSeek的回答示例：

在简单场景下，“能用AI就AI” 往往是最优解。包括许多智能体（如Manus）在处理简单任务时，表现确实出色。

接下来，我们看“能不用AI就不用AI”的方案。

二、最小化AI应用

所谓最小化AI应用，是指只在绝对必要的地方使用AI。在这个案例中，唯一必须使用AI的环节是关键词提取，即语义识别每位学员的空闲时间陈述：

A：空闲时间段为 20:00 - 22:00。
B：18:00 - 20:00 没空，其他时间空闲。
C：二十点后可以，即 20:00 后空闲。
D：下午4点前没空，即 16:00 后空闲。
E：所有时间都空闲。

提取出明确的时间段后，剩余的排班匹配逻辑则用传统算法实现。这立刻引出一个新问题：在最小化AI应用的策略中，如何判断何时必须使用AI？

三、泛化能力

答案很明确：当场景充满泛化需求时，就必须使用AI。例如上述ABCDE的多样化表述，很难用固定的正则表达式完美匹配。类似这种对关键知识（信息）的提取，只能依赖AI的理解能力。

一个类似的场景是：要求学员的昵称格式为 “学号-昵称-城市”，但学员们总会创造出五花八门的格式，例如“学号_昵称_城市”、“城市_学号_昵称”、“学号昵称@城市”等等。

面对这种用户自由输入后的规范化需求，也只有AI能快速、准确地完成修正。所有对泛化能力要求较高的场景，通常都必须让AI登场，而AI在此类任务上的表现也确实出色。

那么，什么是模型能力的可观测性呢？

四、可观测性

答案同样直接：当AI无法识别某种情况时，系统能够快速发现该问题，并具备明确的解决路径。

假设现在出现一位学员F，他的回答非常另类：“戌亥之时，余有暇。”（意为晚上7点到11点有空）

对于这种古文式表达，模型很可能无法正确解析，从而导致排班系统出错。而在**“能不用AI就不用AI”** 的模式下，由于我们清楚AI只负责时间提取这一步，一旦此处提取失败或异常，我们可以立即定位到问题所在。这种能够被清晰识别、定位并制定优化方案的特性，就是我们所说的模型能力可观测性。

最后一个问题：如何优化？

五、如何优化？

一旦发现问题，优化方案是清晰的。最简单的做法是将 “戌亥之时” 与对应的现代时间（19:00-23:00）建立映射关系，并将这个映射规则加入提示词（Prompt）中。

如果希望系统的泛化能力更强，则可以启动后续训练，无论是微调（Fine-tuning）还是强化学习（RL），原理是相通的。

以上便是对模型边界概念最为简单的阐释。当然，真实业务场景要复杂得多。

演进逻辑

其实敏锐的读者已经发现，在这个案例中，“最大化模型使用” 与 “最小化模型使用” 之间并没有绝对的界限。经过优化（例如训练后）的、用于最小化场景的模型，其能力完全可以被最大化使用的方案所利用。

两者的核心差别在于：是否建立了系统性的观测机制。而观测机制的实现，最终大多要落地到数据工程上。

AI应用的终局，归根结底是数据工程。核心在于如何通过数据与最小化AI应用的结合，将关键环节的准确率提升至99%以上。在此坚实基础上，再切换至最大化使用模型的策略，以增强整个AI应用的泛化与创造能力。

学员排班系统虽然简单，但其背后所体现的 模型边界思维、能用/不用AI的决策逻辑、以及可观测性优先的理念，正是构建可靠、可投入生产的AI应用的基石。

这套逻辑在教育、法律、金融、医疗等对准确性、合规性、可解释性要求极高的领域，尤为重要。而其持续演进的核心驱动力，正是数据工程。让我们看一个更复杂的例子。

AI边界与数据飞轮

对于稍具规模的公司而言，合同审批一直是令人头疼的难题：文本冗长、法规频繁更新、容错率极低……

最小化模型应用

在此场景下，对模型的核心诉求是 “高确定性动作”：

精准抽取关键字段（如金额、适用法律地等），要求F1值 ≥ 0.98。
规则引擎比对：与预设的“白名单”标准条款库进行比对，要求覆盖率 ≥ 95%。
异常熔断机制：遇到未知或高风险条款，自动转交人工审核，要求日缺失率 ≤ 0.5%。

最大化模型应用

当基础审批链路达到高度稳定（准确率 > 99%）后，可以逐步释放大模型的进阶能力：

自动生成风险评估摘要，附带修改建议与相关法条链接。
智能追踪多版本合同之间的差异点。
辅助草拟谈判邮件或回复意见。

基于以上稳定可靠的基础，便可以启动数据飞轮。

飞轮系统

在此，应用可观测性的直接产出，是对各种错误数据的系统性收集与利用：

错误样本闭环：捕获模型解析失败的条款 → 人工标注正确答案 → 用于后续模型微调。
指标实时监控：设立监控看板，当“字段缺失率”超过0.5%时触发警报，当“AI判断与规则引擎结论冲突率”超过0.1%时启动双重检查流程。

在理念上，这与前述排班系统一致，只是复杂度大幅提升。具体而言，可归纳为四个关键点：

错误转化链：人工修正错误 → 自动生成〈错误样本，正确答案〉训练对 → 通过对抗样本生成技术进行数据增强。
精准训练：根据错误类型（如“赔偿条款误判”、“数据跨境条款遗漏”）建立分库，针对特定模块进行小规模、靶向式微调。
闭环验证：新模型上线前，必须在历史错误样本集上进行测试，确保复发率低于阈值；采用“影子模式”并行运行观察；并持续监控核心业务指标。
全链路溯源：为每个流程注入唯一追踪码，贯穿“原始数据 → 模型决策 → 业务动作”全链路，确保任何问题可追溯、可复盘。

想象这样一个流程：系统自动捕获合同审核中的AI错误，触发人工复核。法务人员在专用界面修正时，系统同步生成高质量的训练数据对。这些数据经过清洗、增强后，按类型归档。每周，针对特定的高频错误类型，选取对应的专项数据对模型进行轻量化微调。新模型上线前，必须通过严格的回归测试。如此循环，错误被不断转化为驱动系统进化的燃料。

限于篇幅，更多细节不再赘述。

结语

当前AI行业深受Manus等智能体宣传的影响，普遍存在“一步到位”的心态，过度宣扬“模型即一切”，这种思路在实践中往往碰壁。

真正可落地的AI应用，并非在 “全部交给模型” 和 “完全依赖规则” 之间做二元选择，而是在 最小化与最大化模型使用 之间，精心构建一条以 可观测性 为核心的演进路径：

首先，利用小而精的AI能力解决高泛化需求的难点，同时配以明确的监控指标、可追溯的决策链路以及数据飞轮，将每一次错误都转化为系统进化的资产。当基础链路的稳定性和准确性达到极高水准（如99%以上）时，再逐步、可控地释放大模型的创造性潜能与泛化能力，构建更智能的应用体验。

当然，以上观点仅为一家之言，仅供各位参考与探讨。