AI项目进阶:从‘能用就用’到‘能不用就不用’的模型边界思维
上周,AI训练营第一批学员正式毕业。最终课程平均评分达到80分,从最低70分到最高95分不等,甚至有几位学员主动推荐课程。这让我如释重负——总算没有被误解为“割韭菜”。
尤其想分享其中一位产品负责人的深刻感慨:
我终于明白,为什么过去总搞不懂公司里程序员们在做什么了。他们采用的技术架构思路是“AI Max”模式:一个开源方案不行就换另一个,单智能体效果不佳就转向多智能体。当所有方法都尝试过后,结论往往是‘AI的能力上限就到这里了,没有优化空间,等下一代新技术开源再说’。
我有时忍不住追问:你们如何量化这个所谓的上限?有没有系统化的过程和方法论?而他们的回答通常是:无法量化,也无法沉淀,都是拿现成的东西跑一遍而已。
我总觉得哪里不对劲,但苦于不懂技术,无法提出有力质疑,只能听之任之。现在好了,既然这条路确实走不通,那就由我来为他们设计技术路径!
实际上,上述场景正是许多公司面临的共性问题:由于AI项目的入门门槛极低,导致整个团队可能没有一个人真正理解AI项目的内核,也能拼凑出一个70分的产品。然而,当需要从70分优化到80分时,整个团队便束手无策。
根据过往经验,这类试错的成本,少则50万,多则上千万。通常,技术负责人在经历两三次失败后,才不得不真正深入探索可行的技术路径,而这一探索过程本身的成本,往往以百万元计。
于是,困境出现了:公司投入百万级别的AI项目,其产出却如同玩具般简陋。当你询问技术负责人如何改进时,他/她很可能一脸茫然,最终给出标准答案:“当前模型的能力就是这样了,我也没办法。”
最终的结果是,管理者们对AI的期望值大幅降低,认为行业泡沫过大,不愿持续投入。这也导致从2025年至今,超过80%的公司停留在搭建各种AI工作流的浅层应用,并未真正涉足AI项目的深水区。
这片深水区至少包含以下三个核心层面:
- 认知知识化与数据组织:如何将模糊的认知系统地整理为可用知识;或者,在已有知识的情况下,如何高效地组织相关数据。
- 数据交互与反馈循环:数据应如何与AI系统交互,以确保AI每次都能获取到最相关的信息。如何识别因数据不足导致的AI问题,并利用生产数据构建反馈系统来持续优化知识库——这正是我们常说的“数据飞轮”,它是数据工程的一个重要分支。
- 意图识别:理解用户或系统的真实意图,这是实现精准响应的最后一道关卡。
如果要将这个“深水区”进一步提炼,浓缩成面试中的一句话,那便是:定义AI项目的模型边界,或者说,构建AI项目的可观测性。 这里的可观测性,正是无数技术负责人苦苦追寻的、清晰可落地的技术路径。
然而,这句话背后隐含着一系列复杂的背景知识。那么,是否存在一种更简单的理解方式呢?答案是肯定的。
可观测性
近期授课时,我反复强调一个观点:开发AI应用,必须理解模型的能力边界! 这里的“模型边界”引出了AI应用的两大基本流派:
- AI Max:凡是能用AI解决的,就尽可能使用AI。
- AI Min:凡是能不用AI解决的,就尽量避免使用AI。
这三句简单的概括,直接指向了RAG技术先驱之一Douwe Kiela的核心思想:关注AI项目的可观测性,而不仅仅是准确性。
在AI项目中,可观测性比单纯追求准确率更为重要。 在确保基础准确率达标之后,重点应转向对错误的归因追溯、全流程的审计追踪以及系统性错误分析。进而,需要建立反馈闭环与监控系统,确保项目合规并实现持续改进。
在AI项目中,追求100%的准确率几乎是不可能完成的任务。即便能达到90%或95%的准确率,企业当下更关心的是如何处理那缺失的5%或10%——即出错的部分。当错误发生时,我们该如何应对?
除了基础准确性外,关键在于如何管理和应对“不准确”,这就需要引入可观测性。我们必须能够系统性地评估模型表现,并确保存在恰当的审计追踪机制,尤其是在金融、医疗等受严格监管的行业。
而这里所强调的可观测性,只有在**“能不用AI就不用AI”** 的模式下才更容易实现。其背后体现的是对模型边界的深刻认知:追求完美的准确率不现实,核心是要知道错误发生在哪里、为什么会发生、以及如何改进!并且能够证明整个技术框架是闭环、可重复、可溯源的!
这里的 “哪里错、为什么错、怎么改”,恰恰是前文所述众多技术负责人难以回答的终极问题。今天,我们就通过一个简单的案例,来解释什么是‘能用AI就用AI’,什么是‘能不用AI就不用AI’,以及什么才是‘AI项目的可观测性’。
模型边界
此前AI课程学员较多,需要一个排班系统。基本需求如下: 学员在微信群中发出自己每日的空闲时间段,由AI自动统计出所有人都有空的时间,若满足条件则自动预约会议。 学员在群中的发言示例如下:
A:20.00-22.00有空
B:18-20点没空,其他都可以
C:二十点后可以;
D:下午4点前没空;
E:我随便了,都行;
当然,实际系统会包含更多功能,如提醒、少数服从多数的协调规则等,但其核心就是一个时间匹配算法。
一个看似简单的需求,却足以清晰地阐释模型边界的概念。首先,我们来看“能用AI就AI”的技术路径。
一、能用AI就AI
采用全AI方案非常简单,只需将所有聊天记录一股脑地输入给大模型,并附加指令:“请问今天我该安排什么时间上课?”
GPT的回答示例:

DeepSeek的回答示例:

在简单场景下,“能用AI就AI” 往往是最优解。包括许多智能体(如Manus)在处理简单任务时,表现确实出色。
接下来,我们看“能不用AI就不用AI”的方案。
二、最小化AI应用
所谓最小化AI应用,是指只在绝对必要的地方使用AI。在这个案例中,唯一必须使用AI的环节是关键词提取,即语义识别每位学员的空闲时间陈述:
- A:空闲时间段为 20:00 - 22:00。
- B:18:00 - 20:00 没空,其他时间空闲。
- C:二十点后可以,即 20:00 后空闲。
- D:下午4点前没空,即 16:00 后空闲。
- E:所有时间都空闲。
提取出明确的时间段后,剩余的排班匹配逻辑则用传统算法实现。这立刻引出一个新问题:在最小化AI应用的策略中,如何判断何时必须使用AI?
三、泛化能力
答案很明确:当场景充满泛化需求时,就必须使用AI。例如上述ABCDE的多样化表述,很难用固定的正则表达式完美匹配。类似这种对关键知识(信息)的提取,只能依赖AI的理解能力。
一个类似的场景是:要求学员的昵称格式为 “学号-昵称-城市”,但学员们总会创造出五花八门的格式,例如“学号_昵称_城市”、“城市_学号_昵称”、“学号昵称@城市”等等。
面对这种用户自由输入后的规范化需求,也只有AI能快速、准确地完成修正。所有对泛化能力要求较高的场景,通常都必须让AI登场,而AI在此类任务上的表现也确实出色。
那么,什么是模型能力的可观测性呢?
四、可观测性
答案同样直接:当AI无法识别某种情况时,系统能够快速发现该问题,并具备明确的解决路径。
假设现在出现一位学员F,他的回答非常另类:“戌亥之时,余有暇。”(意为晚上7点到11点有空)
对于这种古文式表达,模型很可能无法正确解析,从而导致排班系统出错。而在**“能不用AI就不用AI”** 的模式下,由于我们清楚AI只负责时间提取这一步,一旦此处提取失败或异常,我们可以立即定位到问题所在。这种能够被清晰识别、定位并制定优化方案的特性,就是我们所说的模型能力可观测性。
最后一个问题:如何优化?
五、如何优化?
一旦发现问题,优化方案是清晰的。最简单的做法是将 “戌亥之时” 与对应的现代时间(19:00-23:00)建立映射关系,并将这个映射规则加入提示词(Prompt)中。
如果希望系统的泛化能力更强,则可以启动后续训练,无论是微调(Fine-tuning)还是强化学习(RL),原理是相通的。
以上便是对模型边界概念最为简单的阐释。当然,真实业务场景要复杂得多。
演进逻辑
其实敏锐的读者已经发现,在这个案例中,“最大化模型使用” 与 “最小化模型使用” 之间并没有绝对的界限。经过优化(例如训练后)的、用于最小化场景的模型,其能力完全可以被最大化使用的方案所利用。
两者的核心差别在于:是否建立了系统性的观测机制。而观测机制的实现,最终大多要落地到数据工程上。
AI应用的终局,归根结底是数据工程。核心在于如何通过数据与最小化AI应用的结合,将关键环节的准确率提升至99%以上。在此坚实基础上,再切换至最大化使用模型的策略,以增强整个AI应用的泛化与创造能力。
学员排班系统虽然简单,但其背后所体现的 模型边界思维、能用/不用AI的决策逻辑、以及可观测性优先的理念,正是构建可靠、可投入生产的AI应用的基石。
这套逻辑在教育、法律、金融、医疗等对准确性、合规性、可解释性要求极高的领域,尤为重要。而其持续演进的核心驱动力,正是数据工程。让我们看一个更复杂的例子。
AI边界与数据飞轮
对于稍具规模的公司而言,合同审批一直是令人头疼的难题:文本冗长、法规频繁更新、容错率极低……
最小化模型应用
在此场景下,对模型的核心诉求是 “高确定性动作”:
- 精准抽取关键字段(如金额、适用法律地等),要求F1值 ≥ 0.98。
- 规则引擎比对:与预设的“白名单”标准条款库进行比对,要求覆盖率 ≥ 95%。
- 异常熔断机制:遇到未知或高风险条款,自动转交人工审核,要求日缺失率 ≤ 0.5%。
最大化模型应用
当基础审批链路达到高度稳定(准确率 > 99%)后,可以逐步释放大模型的进阶能力:
- 自动生成风险评估摘要,附带修改建议与相关法条链接。
- 智能追踪多版本合同之间的差异点。
- 辅助草拟谈判邮件或回复意见。
基于以上稳定可靠的基础,便可以启动数据飞轮。
飞轮系统
在此,应用可观测性的直接产出,是对各种错误数据的系统性收集与利用:
- 错误样本闭环:捕获模型解析失败的条款 → 人工标注正确答案 → 用于后续模型微调。
- 指标实时监控:设立监控看板,当“字段缺失率”超过0.5%时触发警报,当“AI判断与规则引擎结论冲突率”超过0.1%时启动双重检查流程。
在理念上,这与前述排班系统一致,只是复杂度大幅提升。具体而言,可归纳为四个关键点:
- 错误转化链:人工修正错误 → 自动生成〈错误样本,正确答案〉训练对 → 通过对抗样本生成技术进行数据增强。
- 精准训练:根据错误类型(如“赔偿条款误判”、“数据跨境条款遗漏”)建立分库,针对特定模块进行小规模、靶向式微调。
- 闭环验证:新模型上线前,必须在历史错误样本集上进行测试,确保复发率低于阈值;采用“影子模式”并行运行观察;并持续监控核心业务指标。
- 全链路溯源:为每个流程注入唯一追踪码,贯穿“原始数据 → 模型决策 → 业务动作”全链路,确保任何问题可追溯、可复盘。
想象这样一个流程:系统自动捕获合同审核中的AI错误,触发人工复核。法务人员在专用界面修正时,系统同步生成高质量的训练数据对。这些数据经过清洗、增强后,按类型归档。每周,针对特定的高频错误类型,选取对应的专项数据对模型进行轻量化微调。新模型上线前,必须通过严格的回归测试。如此循环,错误被不断转化为驱动系统进化的燃料。
限于篇幅,更多细节不再赘述。
结语
当前AI行业深受Manus等智能体宣传的影响,普遍存在“一步到位”的心态,过度宣扬“模型即一切”,这种思路在实践中往往碰壁。
真正可落地的AI应用,并非在 “全部交给模型” 和 “完全依赖规则” 之间做二元选择,而是在 最小化与最大化模型使用 之间,精心构建一条以 可观测性 为核心的演进路径:
首先,利用小而精的AI能力解决高泛化需求的难点,同时配以明确的监控指标、可追溯的决策链路以及数据飞轮,将每一次错误都转化为系统进化的资产。当基础链路的稳定性和准确性达到极高水准(如99%以上)时,再逐步、可控地释放大模型的创造性潜能与泛化能力,构建更智能的应用体验。
当然,以上观点仅为一家之言,仅供各位参考与探讨。