2026年免费AI应用开发学习路线图:从入门到实战的资源指南
近期,咨询AI训练营的学员颇为踊跃。然而,该课程存在一定的门槛,并不完全适合所有群体,例如缺乏工作实践和基础的在校大学生或非互联网行业从业者,学习起来可能会感到吃力。
尽管如此,许多同学依然希望把握当前的技术红利。为此,我们精心准备了一套简明的**《应用级AI学习路线图》**,旨在为这部分同学提供有效的指引。
需要注意的是,本路线图主要面向有志于从事AI应用开发的群体,例如AI工程师和AI产品经理。对于希望成为AI算法工程师的同学也有所裨益,因为实际情况往往是算法能力出色的工程师,未必能轻松解决工程落地问题。
在正式展开路线介绍之前,有必要先澄清一个普遍存在的困惑:普通人是否在AI时代失去了机会?
普通人真的无法分享AI红利吗?
许多读者曾被一张网络图片所传达的焦虑情绪影响:

“看了很焦虑,这图是不是太夸张了?难道做AI和做光刻机一样,只需要极少数顶尖人才?”
经过分析,我认为这种焦虑很大程度上是自我施加的压力。原图并未断言AI领域只需极少数人,其核心观点在于:平庸所承受的代价从未如此高昂,而卓越所获得的回报也从未如此丰厚。文中随后引用了一些国外实例:
据《财经》不完全统计,Meta曾以天价从OpenAI挖角,为部分顶尖AI科学家开出了为期四年、总额高达2亿至3亿美元的合同。

文章也提及了国内AI岗位的薪资状况:硕士应届毕业生月薪5万在AI行业被称为‘底层’?这令我有些惊讶,但在AI领域,这确实是一个相对较低的数值。
读者焦虑的焦点在于 “应届生都能拿到5万月薪!”。然而,我们不应只关注金字塔尖的数字。年薪百万的应届生实属凤毛麟角。基于以往的招聘经验,即便是清华大学、北京大学的毕业生,多数人的年薪范围也在40万至60万元。
诚然,近两年AI算法工程师的待遇确实非常优厚(不乏年薪破百万者),但这里需要给大家提供一个客观的视角:算法工程师这班快车,对于大多数人而言可能真的难以搭乘。
因为这个方向技术壁垒极高且竞争异常激烈。国内仅有少数几家大厂在进行底层模型的研发,即使是985高校的硕士毕业生,在其中也可能面临巨大挑战。对于普通背景的学习者来说,这几乎是难以逾越的鸿沟。
因此,建议大家不必将大量精力投入学习高等数学、线性代数、概率论、机器学习理论等底层原理。
方向选择错误,再多的努力也可能徒劳无功。一个目标是工程应用的人才,若执着于啃食底层理论,很可能事倍功半。
那么,普通人在AI时代的机遇究竟在哪里?答案清晰地指向了应用层。
真正的机会在于应用层
尽管难以分享基座模型研发的红利,但无需过度担忧,因为AI应用层所带来的市场机遇才是真正的蓝海。根据红杉资本AI峰会的保守预测:AI应用的市场规模将达到万亿美元级别!
为了帮助大家更全面地理解AI应用,此处以一个亿元级别AI项目的完整工作分层/分级为例进行说明:
- 模型全训练:包含预训练、微调、强化学习等环节,目标是不依赖外部大模型,实现完全自给自足。通常只有极少数公司会涉足(成本极高),此处仅为保持框架完整性而列出。
- 整体架构设计:涵盖AI工程、数据工程,重点是AI与数据的协同。在此阶段需确定基础的知识库结构与工程架构,这是公司知识产权与核心壁垒所在。
- 模型调优:涉及后训练、RAG(检索增强生成)等技术的深度应用,往往是项目的核心策略,属于架构之下的工具技术层操作,也是面试问题的高发区。
- 提示词工程:细化到各个业务模块的标准作业程序编写,是公司业务逻辑的具体化展现。
- 数据工程具体作业:针对特定板块的详细数据验收。通常在基础架构验证完成后,需要协同各专业人员收集AI工程所需数据,这是公司数据壁垒构建的关键。
- 模型测评:涉及行业AI应用评测标准的执行(方案设计属于整体架构,此处是具体执行),包括测试数据集准备、竞品调研、非标数据收集等。
- 论文与公关相关:主要为学术成果发布与市场宣传,一般人员较少涉及。
- 简单工具选型:包括常用工具的调研与选择,例如向量数据库、Agent平台(Coze, Dify, n8n, LangChain等)。
- 降本增效工具开发:例如数据知识库后台、提示词管理后台(当提示词数量达到数十万级别时需要)。此类工作技术含金量可能不高,但权限控制至关重要,否则易导致公司机密泄露。
- 实施团队:对于开发To B AI工具的团队,可能设有实施团队,负责工具售前或实际行业落地,属于项目执行层。
- 其他辅助性工作,如资料准备、数据确认等。
虽然多数公司的AI项目投入达不到亿元级别,但其具体工作内容必然是上述模块的子集。这里的每一个模块,都是潜在的技术切入方向,并且越是靠后的模块,入门难度相对越低。
另一方面,AI项目的技术路径有时颇具“禅意”或“谜语”特质——未曾点破时百思不解,一旦道破则豁然开朗。因此,通常只有公司最核心的少数成员能够窥见项目全貌,且职位越高,接触的信息越全面。
故此,在设计个人学习路径时,务必坚持自下而上的原则。脱离了实践的学习,无异于纸上谈兵。
接下来,将为大家呈现具体的学习路径与资料推荐。
对于AI产品经理和AI工程师,学习路径大体一致。区别在于,AI工程师需要具备一定的编程基础,建议额外学习一门语言,例如阅读**《Python编程:从入门到实践》**。之后的路径便可统一进行。
第一阶段:掌握Agent平台
首先,Agent平台是必须掌握的技能。因为超过80%的企业在初步尝试AI时,第一件事就是在Coze或Dify上通过拖拽方式搭建工作流。尽管他们后期可能会发现其局限性,但作为学习者,我们不应逆主流趋势而行。
况且,这些平台确实具有实用价值。以长期实践经验来看,Coze堪称AI产品经理的利器,有了它,制作演示原型基本无需依赖程序员,极大地拓展了能力边界。
常见的Agent平台包括Coze、Dify、FastGPT、n8n等。其中,必须熟练掌握的是Coze和Dify。选择Coze是因为其门槛极低;而Dify则是私有化部署的主流选择。
学习的深入标准是:能够进行技术选型,即清晰阐述在不同场景下应选择哪个平台及其原因。这意味着需要建立一套统一的评价体系来评估各类Agent平台,例如考量以下维度:


明确了学习目标后,实践方法反而变得简单:尝试实现一个通俗易懂的工作流即可,例如一个简化的HR招聘工作流:

当你能够熟练运用Coze后,便可以进入下一个主题:AI表格。
第二阶段:精通AI表格
当一家公司开始使用Coze后,他们几乎必然会接触到AI表格(或称多维表格)。而大多数公司最终会发现,AI表格才是其中后台业务AI应用落地的关键。原因在于:
各个公司的中后台部门天然亲近Excel类产品,而AI表格完美解决了Excel在多人协作中的核心难题。
以近期某钉钉产品发布会为例,上午简短开场后,接连展示了钉钉生态下的三个典型赋能案例:
- 第一个是直播电商赋能;
- 第二个是工业制造赋能;
- 第三个是全球化的应用。
值得注意的是,这三个案例本质上都是AI表格的应用。而下午场的核心内容依然聚焦于AI表格!此外,飞书体系的多维表格也在持续发力。
2026年免费绘本资源全攻略:正规平台助您轻松获取千万读物
对于有孩子的家庭而言,购置各类绘本几乎是养育过程中的常态需求。尽管绘本的文字内容相对精简,但其市场价格却常常居高不下,更令人困扰的是,在购买之前很难准确判断这些读物是否真正契合孩子的兴趣与认知水平。实际上,只要掌握正确的方法并充分利用现有资源,家长们完全能够寻获大量优质的免费绘本。本文将为您详细介绍几个资源丰富、完全正规的数字平台,帮助您和孩子畅享阅读乐趣,建议收藏备用。
中少快乐阅读平台
中少快乐阅读平台的官方网址为:http://zhongshaisi.61read.com/。该平台主要包含两大核心板块,分别是中少报刊库与中少绘本库。报刊库收录了中国少年出版社旗下的多种经典报纸与期刊的电子版本,例如《中国少年报》《中国中学生报》《中国儿童报》《中国少年英语报》以及《中国儿童画报》等。这些刊物堪称童书领域的典范之作,平台提供了自创刊至今的完整期次,资源极为全面。

除了上述经典报刊,平台还汇集了《婴儿画报》《幼儿画报》《嘟嘟熊画报》《儿童文学》《中国少年文摘》《中学生》以及《知心姐姐》等覆盖各年龄段的期刊。这些内容能够有效提升孩子的学习与理解能力,同时激发并增强他们的好奇心与探索欲。

中少绘本库则进一步细分为精品绘本与绘本课程两个部分。精品绘本按照儿童年龄划分为2-4岁、4-6岁以及6-8岁三个阶段,所选故事生动有趣,插画制作精良,均为国内外广受赞誉的绘本作品。绘本课程板块则提供了丰富的有声书资源,所有内容均支持免费收听与阅读。

此外,部分期刊中还专门开设了文化系列专栏,这些内容非常适合已经具备一定阅读能力的孩子,用以拓展知识面与文化视野。
轻松猫
轻松猫的官方网站地址是:http://www.blcup.com/smartcat/。《轻松猫》系列是一套专门为10至18岁青少年中文学习者设计的中文分级读物,由北京语言大学出版社倾力打造,属于该社的重点品牌产品。该系列读物计划分为四个等级,目前前三级已正式出版并同步上线官方网站,第四级的出版工作正在积极筹备之中。

通过访问“轻松猫”官网,读者可以免费阅览该系列已出版的前三级所有内容,网站界面友好,导航清晰。这套读物全部采用原创故事,并注重语言的实用性与趣味性。值得一提的是,点击每个故事的简介后,用户可以选择收听不同版本的音频录音,例如角色扮演的常速版、发音清晰的慢速版,甚至节奏感强的说唱版本。此外,还能点击“单词”部分进行生词的跟读学习。

虽然这套读物主要面向海外汉语学习者,但对于以中文为母语的儿童而言,其内容同样适用于3至6岁的启蒙阶段。除了“轻松猫”系列,该网站还提供了丰富的幼儿读物音频资源。

幼儿读物音频分为四个级别,其中第一级和第二级各包含8个故事,第三级和第四级各包含10个故事。每个故事的时长适中,非常适合幼儿进行听力训练和跟读学习。
首都图书馆
首都图书馆的官方网站为:https://www.clcn.net.cn/。该图书馆线下馆藏资源极为丰富,但实体借阅可能受地域与时间限制。利用其电子书库则能完美解决这一问题。用户只需访问首都图书馆官网,登录个人借阅账号,然后点击页面左上角的“资源”选项,即可浏览各类数字资源库。

这些资源库均由首都图书馆采购,供注册读者免费使用。进入资源导航页面后,选择“少儿”类别,便能找到众多专属平台,包括龙源少儿电子期刊阅览室、中少智绘绘本活动平台、书童AR互动科普教育资源库、阿咘手绘百科、新东方双语阅读、中少快乐阅读平台、乐儿智慧王国以及点点书库等。所有这些资源均可免费访问。

平台提供的资源数量庞大,覆盖0至18岁全年龄段,类型也多种多样。内容不仅涉及地理、历史、文学、数学等学科知识普及,还包括动植物辨识、折纸手工教学等互动性强的益智活动。

除了绘本与读物,这些资源库中还包含了大量适合婴幼儿的音频与视频材料。充分挖掘并利用这些资源,能为家庭节省可观的教育开支。
Little Fox Chinese
Little Fox Chinese(小狐狸中文)的网站地址是:https://chinese.littlefox.com/en。该平台最初专为将汉语作为第二语言的学习者设计,主要用户群体为海外学生,但其资源同样非常适合中国儿童使用。目前网站资源免费开放,仅需注册并登录账号即可畅享。

在内容构成上,Little Fox Chinese主要分为故事绘本、有声儿歌以及汉字游戏三大类别。网站拥有海量的动画资源,这些内容被细致划分为5个难度等级。每个分类下的故事均不重复,且题材广泛,真正实现了寓教于乐。

“基本儿歌”专辑收录了汉语拼音儿歌、数字歌以及常用问候语儿歌等。此外,还有许多由经典英文儿歌改编的中文版本,例如《The Hokey Pokey》《Bingo》和《London Bridge Is Falling Down》。网站提供的动画视频不仅配有汉字字幕,还添加了拼音注音,画质清晰,播放流畅。

观看视频后,孩子还可以通过配套的小测验和互动游戏来检验学习成果,趣味性十足。这种方式特别适合那些识字效率较低或对传统分级阅读绘本兴趣不大的孩子。需要强调的是,平台所有类型的资源都会持续更新,确保用户总有新鲜内容可看。
30分钟快速上手AI Agent:从概念到实践构建智能体闭环系统
前几天,我分享了两篇关于Agent的详细课件,分别是《做一个Agent-上》与《做一个Agent-下》。这些内容引起了许多同学的关注,但也产生了一个有趣的现象:文章的分享数量远超阅读量,甚至达到了近2倍的差距。
这或许说明了一个问题:大家认为这些知识非常有用,但可能因为内容过于详实而望而却步,更希望推荐给朋友去学习。后续也确实有粉丝反馈,内容扎实,但希望能更精炼一些。
因此,在今天的文章中,我将尽量化繁为简,用更轻松的方式阐述核心概念。
什么是Agent
2025年被誉为AI Agent的元年,而2026年则被明确为Agent发展的“大年”。例如,近期备受关注的OpenClaw便是一个典型的Agent。可以预见,未来将有各式各样的Agent如雨后春笋般涌现,它们很可能深刻地改变我们的工作与生活方式。
尽管“Agent”一词出现的频率极高,但若要追问其确切含义,能清晰阐述的人却不多。
“Agent”一词源于拉丁语“agere”,本意为“去做、去行动”。从概念上讲,Agent就是一个行动者,一个能够主动感知环境、围绕目标自主决策并执行动作的实体。
在专业领域,AI Agent(智能体)正是将这种“行动者”的能力赋予了AI系统。它不再是被动响应指令、仅仅提供答案的模型,而是一个能够自主感知、决策和执行的智能实体。简而言之:传统大模型擅长“回答问题”,而Agent擅长“完成任务”。
它可以理解你的目标,自动拆解步骤、规划路径、调用各种工具,一步步地将事情执行完毕。

不过,最近我看到了另一张更为经典的图,它清晰地解释了Agent是什么,并隐约揭示了其发展规律:Agent是一场工作流(Workflow)复杂度的迁移,是泛化能力极强的、可被智能驱动的Workflow,或者说Agentic Workflow。

理解这句话,就理解了什么叫“让AI自己去干活”。本质上,Agent不过是模型使用范式中的一种罢了。
如何让AI做事
当前的主流大模型,如GPT、Qwen、DeepSeek等,学习了海量的公开知识,具备强大的推理和逻辑能力。它们的核心执行逻辑是:根据我们输入的内容,经过内部计算(推理)后,输出一段文本结果。
以调用DeepSeek官方API为例:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ.get('DEEPSEEK_API_KEY'),
base_url="https://api.deepseek.com")
response = client.chat.completions.create(
model="deepseek-chat",
messages=[
{"role": "system", "content": "You are a helpful assistant"},
{"role": "user", "content": "Hello"},
],
stream=False
)
print(response.choices[0].message.content)
从这个简单的例子可以看出:
- 模型接收的
messages包含了系统提示和用户问题。 - 模型最终只输出一段文本(
content),然后交互就结束了。
这意味着,大模型本身不会执行任何实际的操作,它只会“告诉你怎么做”,而不会“替你去执行”。
那么,如何才能让AI真正完成一项任务呢?答案是:为AI提供执行任务所需的能力(即工具)。
如果在没有AI的情况下,我们也能完成某件事,那就说明我们已经具备了相应的工具或函数。接下来,我们只需要把这些函数“告诉”AI,并引导它在合适的时机选择并调用正确的函数。
下面,我们就通过开发一个“旅游规划助手”智能体的具体案例,来详细讲解如何实现这一过程。
开发一个Agent
我们将通过开发一个旅游规划助手智能体,来逐步拆解让AI真正“做事”的步骤。

第一步:设计功能与函数
在引入AI之前,我们必须确保即使没有AI,用户也能独立完成旅游规划。因此,我们首先要设计好旅游助手所需的核心功能,并实现对应的函数:
- 查询天气:根据目的地获取未来几天的天气预报。
- 查询热门景点:列出目的地的热门景点及其简介、门票等信息。
- 查询酒店:根据目的地和日期,推荐附近的酒店及价格。
- 查询公交路线:规划两个地点之间的公共交通路线。
在没有AI的情况下,用户需要手动依次执行这些查询操作:先查天气决定出行时间,再查景点筛选目标,接着查附近酒店,最后规划交通路线。整个过程虽能完成,但无疑较为繁琐。
第二步:让AI接管流程
我们的目标是,用户只需说一句“帮我规划下周去北京的行程”,AI就能自动调用上述函数,获取所有必要信息,并整合成一份完整的旅游计划。
35岁产品经理被裁后如何成功转型AI领域:真实求职经历与经验总结
今天的分享来源于一位读者的投稿,他希望通过此文感谢之前获得的求职帮助,同时也对自身近期的求职历程做一次梳理与总结。正文内容如下:
我是一名专注于直播领域的产品经理,一位拥有十年经验却始终未踏入头部大厂的“资深从业者”。我的职业生涯贯穿了直播行业的诸多环节:从面向消费者的前端产品到服务内部的后台系统,涉及用户运营、增长策略、营收变现、电商融合、游戏联运、内容审核乃至灰色产业对抗等领域,我几乎都有所涉猎。
尽管未曾进入如BAT般的行业巨头,但我内心始终怀有一份自信:倘若置身其中,胜任P8级别的岗位或许力有不逮,但对于P7层级的职责可谓游刃有余,应对P6的工作更是驾轻就熟。然而现实是,我的薪资水平长期徘徊在相当于大厂P5的区间。
时光飞逝,纵然对自己能力深信不疑,也难敌岁月流逝。转眼间便步入了35岁的门槛,而中年危机的浪潮,竟如此真实且猛烈地袭来。
今年五月,前公司按季度执行的裁员计划,终于轮到了我。彼时,团队内仅余三名孕妇与两位“嫡系”成员,那些曾被我的“内卷”能力所影响的同事,早已先我一步领取了离职补偿。 因此,对于这个结果,我早有心理准备,并提前通过相识的HR与猎头开始物色新机会。
然而,我的工作履历在求职市场上却显得颇为尴尬。年近四十,在互联网行业上一轮红利期并未积累下足够资本,如今若期望薪资有所上浮,更是难上加难。即便只求平薪,也仅有头部互联网企业的资深岗位能够匹配,但大厂显然更青睐拥有三至五年经验的年轻从业者(当然,这些年轻人在迈过三十岁后,其简历价值也会逐渐衰减)。
中型公司的团队负责人岗位或许也能满足薪资要求,但我管理经验相对欠缺,又缺乏顶尖大厂的履历背书。作为一个既无深厚背景又无耀眼履历的“空降兵”,很难获得老板的充分信任。至于小型公司,除非是老板极为信任的心腹或最能创造价值的干将,否则他们为何要用一个小型团队的预算来雇用我一个人呢?
因此,自2023年起,我便将下一个可能产生行业红利的方向锁定在人工智能领域。不过,我出身纯文科背景,要从头系统学习AI,理解其基础原理尚不算艰难,但若要深入钻研数学模型与算法,其难度堪比转行成为软件工程师。
于是,我只能将目光聚焦于AI的应用层,寻找切入机会。从2024年到2025年,在前司工作期间,我也有意识地向这个方向转型,主导推进了几个AI项目。这些AI应用层面的实践经验,成为了我简历上的加分项。但真正到了面试环节,雇主愿意采信多少,又是另外一回事了。
分享两次印象深刻的面试经历。第一次是面试一家直播出海领域的头部公司,面试官(产品总监)开门见山地提问:
“你说你对AI产品感兴趣,公司层面也可以提供支持,毕竟纯粹执行类的产品工作,想必你也看不上。那么,你具体想做什么项目?你能为团队引入哪些资源?又预计能为公司创造多少价值?”
我表面维持着笑容,内心却想:倘若我手握成熟项目、拥有独特资源并能预判可观价值,又何必来贵公司应聘呢? 最终,这场面试因没有合适的岗位匹配而不了了之。
另一次面试来自一家颇具声量的新兴AI公司,经由猎头推荐,实现了“直接与老板对话”。这位创始人是我曾任职大厂的前高管,在兑现股票期权并依托原有资源后,独立开启了新项目。
然而,实际体验其主打的AI助手产品后,我很快发现了问题:作为一款面向消费者的产品,开发两三年后仍未能起到有效的“助手”作用,更像是一款为融资而设计的“VC导向型”产品。到了2025年,产品换用了Deepseek的模型,算是全面拥抱国产大模型,虽然降低了成本,但核心竞争力仍建立在模型的基础能力之上。
在反复沟通的面试过程中,老板显然清楚自己项目的缺陷,而我也洞察到了其中的“猫腻”。双方心照不宣,对方主要在用各种说辞进行搪塞,例如声称不担心融资问题等。这些冠冕堂皇的话术背后,结果显而易见——面试无疾而终。
后续还经历了一些其他面试,但全部没有下文。
离职三个月后,我的心境从一开始“终于可以好好休息”的松弛,逐渐转变为“赔偿金即将耗尽,工作尚无着落”的焦虑。我开始紧急复盘:为何总是无法找到合适的工作?
最终的结论或许是:虽然积累了一些AI项目经验,但知识体系仍不够系统,处于一知半解的状态,想要寻求突破也找不到明确方向。于是,我想到了向昔日同事叶小钗请教(他在AI领域似乎颇有建树)。
小钗曾是我在B站工作时的同事,过去合作愉快,也是我长期关注的公众号博主。他的职场见解对我过去的职业发展助益良多。他较为幸运,较早涉足AI项目,并在其中扮演了关键角色,完成了一次非常成功的转型。
因为是旧识,我们的交流直截了当。他没有谈论虚幻的概念,而是从自身经历出发,特别是从一次失败的创业实践中总结经验。因此,这次交流收获的内容非常务实,对寻找AI相关工作极具指导意义。
其核心观点与他过往阐述的类似:简单的AI项目(预算千万以下),能分享到的红利有限;而复杂的AI项目(预算达到亿级规模),其全貌通常只对极少数核心成员(3-5人,甚至更少)开放。原因很简单:公司投入巨大资源形成的知识资产,不会轻易让外人掌握。
具体到工作内容,可以划分为不同层级:
- 整体架构设计:涵盖AI工程、数据工程及两者间的协同,这是公司核心知识产权的体现;
- 模型调优:涉及后训练、RAG等深度技术应用,通常是项目的核心策略,属于架构之下的工具技术层操作,也是面试中的重点考察领域;
- 提示词工程:细化到各业务模块的标准作业流程编写,是公司业务逻辑的具体化呈现;
- 数据工程的具体实施:针对特定板块的详细数据验收,一般在基础架构验证完成后进行,需协同各领域专家收集AI工程所需数据,构成了项目的数据壁垒;
- 模型测评:涉及行业AI应用评测标准的执行(测评方案由架构层决定,此处仅为执行),包括测试数据集准备、竞品调研、异常数据收集等;
- 论文撰写与公关宣传:即“包装”与宣传相关工作,普通员工通常难以触及;
- 工具选型:涉及常用工具的调研与选择,例如向量数据库、Agent平台(如Coze、Dify、n8n)等;
- 降本增效工具开发:例如数据知识库后台应用、因提示词过多而需开发的提示词管理后台等,这类工作技术含金量或许不高,但权限控制至关重要,否则容易导致公司机密泄露;
- 实施团队:对于开发To B AI工具的团队,可能设有实施团队,负责工具售前或实际行业落地,属于项目执行层面的“耗材”;
- 其他边缘性或辅助性工作。
其中最具价值的工作,普通从业者可能一项都接触不到。 真实的职业发展路径往往是:先从边缘性工作做起;接着承担各种“脏活累活”,例如协助专家整理数据;然后才能接触一些相对独立的任务,如竞品调研、模型测评。
如果头脑灵活、做事细致,并且在公司工作超过半年,才有可能负责某个具体模块的提示词编写。至于更上层的模块设计,则很难深入参与:一是出于保密要求,二是核心架构已然完成,无人会主动将那些有价值的经验——例如历史上踩过哪些坑、最终为何选择当前架构等核心细节——倾囊相授。
在叶小钗的指导下(断断续续学习了近两个月),我逐步构建起系统性的AI知识框架。此后的面试开始变得目标明确、言之有物,进程自然也顺利了许多。
结合系统学习获得的AI认知,与我过往项目中积累的实践经验,我在七月份成功获得了一份AI产品经理的录用通知。这一次,是真正意义上的AI岗位,所在项目属于行业内的独角兽级别。
更令人欣慰的是,月薪较之前提升了20%(年薪约50万元)。这足以证明,真正有志于在AI领域发展的公司,确实愿意为人才支付相应的薪酬。
以上即是我过去三个多月的求职历程与思考,希望这段经历能对各位有所启发。
35岁产品经理裁员后的AI转型逆袭:从失业到年薪50万的全记录
作为一名在直播行业摸爬滚打十年的产品经理,我虽未曾进入过BAT这样的顶级大厂,却始终自信地认为,自己的实力足以匹敌那些所谓的大厂精英。在我看来,P8级别也不过如此,P7级别游刃有余,P6级别更是轻车熟路,遗憾的是,我的薪资始终徘徊在P5的水平上。
时光飞逝,岁月不饶人,转眼间我便跨入了35岁的门槛。直到此刻,我才真切地体会到,中年危机并非空穴来风,它实实在在地降临到了我的头上。今年五月,前公司每季度一次的裁员浪潮终于席卷了我所在的团队。当时,组内仅剩三名孕妇和两名嫡系成员,而那些曾被我认为可能因竞争而被淘汰的同事,早已先我一步领取了离职补偿。因此,对于自己被裁的结果,我心中早有预料,并提前通过熟悉的HR和猎头开始寻找新的工作机会。
然而,我的工作履历在求职市场上显得颇为尴尬。年近四十,在互联网行业蓬勃发展的时期未能享受到太多红利,如今还想谋求薪资上涨,更是难上加难。即便是平薪的要求,也只有互联网头部企业的基础岗位能够满足,但大厂显然更青睐拥有三到五年经验的年轻人。中型公司的团队领导岗位或许也能覆盖我的薪资期望,但我缺乏管理经验,又没有大厂背景作为背书,老板很难对这样一个空降兵抱有足够信心。至于小型公司,除非是老板最信任的心腹或最得力的干将,否则又何必用一个小团队的预算来雇佣我一个人呢?
自2023年起,我便认定AI领域可能是下一个蕴含行业红利的赛道。不过,我出身纯文科背景,要从头学习AI技术,理解底层原理尚不算太难,但若要深入研究数学算法,其难度不亚于转行成为一名程序员。因此,我只能更多地在AI应用层面寻找机会。从2024年到2025年,我在前公司的工作中有意识地朝着这个方向转型,参与并主导了几个AI项目。这些AI应用的经验固然为我的简历增添了一些亮点,但真到面试时,老板们究竟愿意相信多少,又是另一回事了。
举两个面试的例子来说吧。第一次是面试一家直播出海行业的头部企业,产品总监开门见山地问道:“你说你想从事AI产品工作,我们当然可以支持,毕竟纯执行的产品岗位你肯定也看不上。那么,你具体想做什么项目呢?能带来哪些资源?又预计能为公司创造多少价值?”我表面保持着微笑,内心却想:如果我真有现成的项目、充足的资源,还能确保产生可观价值,又何须来这里求职呢?果不其然,最终因为没有合适的岗位,这场面试不了了之。
另一次面试则是一家颇具知名度的AI创业公司。通过猎头推荐,我的简历直接到了老板手中,实现了所谓的“直接和老板谈”。这位老板是我之前所在大厂的高管,兑现股票后凭借原有的人脉和资源,独自开启了新项目。不过,我亲自体验了他们主打的那款AI助手产品后,很快发现了问题:作为一款面向消费者的产品,开发了两三年却几乎起不到什么“有效”的助手作用,明显是一款为融资而生的项目。到了2025年,产品换用了Deepseek的模型,算是全面拥抱国产大模型,成本有所降低,但核心竞争力依然依赖于模型的基础能力。在面试的反复沟通中,老板显然清楚自己的项目存在瑕疵,而我也能看出他知晓我察觉了这些猫腻。双方都在打太极,老板反复强调不担心融资等问题,话说得漂亮,但这样的面试自然不会有任何实质结果。
随后的其他面试也全部无疾而终。转眼间,离职已经三个多月。我的心态也从最初的“终于可以好好休息”逐渐转变为“赔偿金快用完了,工作还没着落”的焦虑。于是,我开始认真复盘,为何总是找不到合适的工作?最终的答案或许是:尽管我参与过一些AI项目,但知识体系仍然不够系统,处于一知半解的状态,想要突破却找不到明确方向。这时,我想起了前同事叶小钗,他在AI领域似乎颇有建树。
小钗曾是我在B站共事过的同事,我们合作愉快,我也一直关注他的公众号。他的职场分享对我过去的职业生涯帮助良多。他比较幸运,较早涉足AI项目,并在其中扮演了关键角色,成功实现了转型。因为是老相识,我们的交流直截了当。他没有讲那些华而不实的内容,而是从自身经历过的失败创业案例出发,分享了许多实用经验,对我寻找AI相关的工作大有裨益。
他分享的内容大致如下:简单的AI项目往往红利有限;而复杂的、投资额巨大的AI项目,其全貌通常只对极少数核心人员开放。原因很简单:公司投入巨资形成的知识资产绝不会轻易让外人掌握。具体到工作项目,可以大致分为几个层级:一是整体架构设计,涉及AI工程、数据工程及两者的协调,这是公司知识产权的核心所在;二是模型调优,涵盖后训练、RAG等深度技术应用,通常是项目的核心策略,也是面试中问题最集中的领域;三是提示词工程,需要细化到各个业务模块的标准作业程序编写,是公司业务的具体体现;四是数据工程的具体作业,包括特定板块的数据验收,这是在基础架构验证后,与各专业人员协作收集AI工程所需数据的关键环节,构成了数据壁垒;五是模型测评,涉及行业AI应用评测标准的执行、测试数据集准备、竞品调研等;六是论文和公关相关事宜,这类工作一般人员很少接触;七是工具选型,包括向量数据库调研、Agent平台评估等;八是降本增效工具的开发,例如数据知识库后台应用,这类工作技术含量可能不高,但权限控制至关重要,否则容易导致公司机密泄露;九是实施团队,多见于面向企业的AI工具团队,负责售前或实际实施,属于团队中的基础执行层;最后还有其他各种零散工作。
真正有价值的工作,普通人可能一个都接触不到。现实的发展路径往往是先处理一些边角料,然后承担各种脏活累活,比如协助专家整理数据;之后才有可能独立负责一些工作,如竞品调研或模型测评。如果头脑灵活、做事细致,并且在公司工作半年以上,或许能接触到具体某个模块的提示词工程。而更上层的模块则难以参与,一方面出于保密考虑,另一方面核心工作早已完成,没人会主动将历史上的踩坑经验、架构决策背后的核心细节等宝贵信息分享给你。
在小钗的指导下,我花了近两个月时间,逐步构建起了系统性的AI知识框架。此后,我的面试开始变得有的放矢,进展明显顺利了许多。结合我学到的系统性AI认知与之前项目中积累的实践经验,我在七月份成功拿到了一份AI产品经理的录用通知。这次是真正意义上的AI工作岗位,项目属于行业内的独角兽级别。更令人欣慰的是,月薪还上涨了20%,年薪达到50万左右。这足以证明,真正有志于发展AI的公司,确实愿意为人才支付合理的报酬。
以上便是我三个多月求职历程的完整记录,希望能为面临类似处境的朋友提供一些参考。
5分钟搞定OpenClaw:一站式故障排查与日志分析指南
AI助手忽然停止响应,消息发送失败,不知从何处入手排查?本文提供一套标准化的问题定位流程,涵盖从Gateway状态检查到深度日志分析,助你在5分钟内精准锁定问题根源。
60 秒快速诊断
遇到问题,第一步并非直接查看日志,而是依序执行以下命令。绝大多数常见问题在此阶段即可被定位:
# 1. 检查 Gateway 基本状态
openclaw status
# 2. 检查所有组件状态
openclaw status --all
# 3. Gateway 健康探测
openclaw gateway probe
# 4. Gateway 详细状态
openclaw gateway status
# 5. 医生模式:全面检查配置与环境
openclaw doctor
# 6. 探测各渠道连通性
openclaw channels status --probe
# 7. 实时查看系统日志
openclaw logs --follow
这七条命令覆盖了Gateway进程状态、外部渠道连接状态以及内部配置完整性三个核心维度。按序执行后,常见故障的根因通常已无所遁形。
常见故障分类与应对
类型一:连接类问题
典型症状:消息成功发送但无任何回应,AI助手完全无反应。
排查路径:
- 确认Gateway进程状态:
若对应容器未处于运行状态,请尝试重启:
docker ps | grep openclawdocker compose restart # 或使用容器ID/名称 docker restart openclaw - 检查各渠道连通性:
openclaw channels status --probe - 检查对应平台机器人状态:
- 飞书:机器人功能是否被禁用?App ID与App Secret是否已过期?
- 微信公众号:服务器IP地址是否已加入平台白名单?配置的Token验证是否通过?
- QQ:WebSocket连接是否正常建立?机器人账号是否受到平台风控限制?
类型二:认证类问题
典型症状:API调用返回401(未授权)或403(禁止访问)错误,或模型服务突然中断。
5天破局:AI创业进阶与核心技能精讲训练营
自DeepSeek发布以来,国内AI应用领域展现出蓬勃生机,市场前景持续向好,相关的职业机会也同步增多。
今年三月左右,我身边有两位朋友计划向人工智能领域转型,我便带领他们进行了一段时间的系统学习。最终,他们都成功找到了理想的工作岗位。这段经历也促使我初步构建了AI训练营的核心框架。
进入五月,我所负责的“AI+英语”创业项目面临现金流压力,这促使我们探索两种补充资金的途径:一是外出求职以薪资支撑团队运营,二是通过开发AI课程来实现团队的自给自足。
经过深入权衡,实际上可行的路径只有一条:通过售卖课程来维持团队发展。原因在于,几乎没有雇主会允许员工利用公司资源处理个人事务。因此,我正式启动了AI训练营项目,至今已即将迎来第五期学员的加入。
训练营第五期计划于十月底正式开课,对此感兴趣的朋友可以与我取得联系。
尽管学员们普遍对课程内容表示高度认可,但我们也发现了一些可以优化的地方。
约有三分之一的学员本身具备一定基础,他们感觉现有的教学节奏略显平缓。同时,这部分学员的需求往往非常急切:有的即将参加面试,有的则在当前项目中遇到了亟待解决的技术难题。因此,他们普遍表现出一种“时不我待”的紧迫感,认为长达两个多月的学习周期有些漫长。
针对这部分学员的特定需求,我们计划在十月国庆假期期间,推出为期5天的“AI极速训练营”,旨在帮助大家进行高效、密集的考前或项目前冲刺。
由于是强化集训,本课程更适合有一定基础的参与者。如果你符合以下任一身份或需求,欢迎报名:
适用人群一:AI创业者与项目负责人
如果你正在AI领域创业,特别关注AI项目的试错成本与控制,希望深入了解不同模式AI项目的成本构成,或者渴望获取更多来自AI创业先行者的失败经验与教训,那么这门课程将非常适合你。
我将为你剖析AI to B业务的核心难点在于订单获取与尾款回收,而AI to C业务的关键则在于构建难以被复制模仿的核心竞争力。
此外,我将带你深入探索钉钉、飞书等AI办公生态的核心逻辑,帮助你更清晰地定位自己在未来AI赛道中的生态位。
适用人群二:AI项目核心成员
如果你即将或正在某个AI项目中承担核心职责,并且希望预先了解或正在面临一些棘手的AI实践难题,这门课程将为你提供解决方案。
我将阐释AI项目中存在的非对称性挑战是什么,以及如何建立模型的可观测性体系。
同时,我会系统性地讲解几种主流的AI项目类型,分别揭示其生产级实践方案、面临的独特难点以及相应的破解之道。
适用人群三:AI领域转型者
如果你是产品经理或程序员(注:需具备一定基础),并且立志于寻找一份AI相关的工作,那么这门课程对你而言价值尤为突出,你的收获将可能超过前述两类参与者。
我将为你展现完整的AI项目全局视野,这甚至是许多已入职的AI产品经理或工程师都未曾领略的风景。
许多转型者存在一个重大认知误区,他们认为只要拿到AI岗位的录用通知,便意味着抓住了巨大的行业红利。这种想法可能过于乐观。
一个估值或预算达亿级别的AI项目,其全貌通常仅对3-5位核心成员开放,甚至更少。原因很简单:企业投入巨大资源形成的知识资产,岂能轻易外流?
具体到工作内容,也存在明确的分级:
- 整体架构设计:涵盖AI工程、数据工程及二者的协同,这是企业核心知识产权的所在地。
- 模型调优:涉及后训练、RAG等深度技术应用,属于项目核心策略层,是在既定架构下的工具技术实施,也是面试问题的高发区。
- 提示词工程:细化到各业务模块的标准作业流程编写,是公司业务逻辑的具体化体现。
- 数据工程实施:负责特定板块的数据校验与处理,通常在基础架构验证完成后,协同各领域专家收集AI工程所需数据,是构建数据壁垒的关键。
- 模型测评:执行行业AI应用评测标准(评测方案由架构层制定,此处负责执行),准备测试数据集、进行竞品调研、收集异常案例等。
- 论文与公关材料撰写:即宣传导向工作,一般人员较少接触。
- 工具选型:涉及常用工具的调研与选择,如向量数据库、Agent平台(Coze、Dify、n8n等)。
- 降本增效工具开发:例如数据知识库后台、提示词管理系统。此类工作技术含量可能不高,但权限管控至关重要,否则易导致公司机密泄露。
- 实施团队:对于从事To B AI工具开发的团队,可能设有实施团队,负责售前支持或行业落地,属于项目执行层面的支持力量。
- 其他辅助性工作。
我可以负责任地指出,上述最有价值的工作,转型初期你可能一个都接触不到。 真实的职业发展路径往往是:先从边缘辅助工作入手;继而承担各种繁杂任务,例如协助专家整理数据;之后才能独立负责部分工作,如竞品调研或模型测评。
只有当你头脑灵活、做事严谨,并且在公司积累超过半年以上的信任后,才有可能接触具体业务模块的提示词开发。而更上层的架构设计工作,则更难触及:
一方面出于保密要求,另一方面是因为核心架构早已确立,没有人会主动将有价值的经验——例如历史上踩过哪些坑、为何最终采用当前架构等关键细节——轻易分享给你。
以上便是目前行业内真实存在的状况。在本课程中,我将引导你以AI项目的全局视角,去学习、感知甚至部分实操这些内容,助你触及那些看似遥不可及的核心领域。
课程大纲
从AI应用的实际视角来看,许多深奥的专业术语对于大多数人并无直接用处。例如,我曾见过某《AI工程师XX计划》课程包中包含的TFIDF、Bm25算法、BERT模型、贝叶斯算法、FastText、LSTM、Viterbi、向量化、Encoder-decoder模型、知识图谱等内容。
学习AI应用应当更注重实效,遵循第一性原理,从生产实践出发。工作中实际用什么,什么技能最重要,我们就重点学什么。基于此,我们制定了为期五天的核心课程大纲:
第一天:构建AI项目的认知框架
课程伊始,我们将共同回顾过去两年多AI领域的快速发展,并分享我在这次AI浪潮中的亲身经历与所见所闻,使大家对AI产业的感知更为立体和真实。
随后,我们将引入一套架构体系,对当前所有的AI应用进行系统分类,并深入探讨不同类型AI项目的关键参数与特性。这将帮助大家看懂所谓“AI应用元年”的发展重点,真正透视2025年,了解近一年来各家公司实际推进的项目,以及各大厂的核心战略布局是什么。
第二天:深入解析Agent平台
第二天,我们将首先聚焦于各类公司最可能涉及的模块——Agent平台,进行深入讲解。帮助大家系统性地了解Coze、Dify、FastGPT、n8n等主流平台的优劣,掌握选型方法论。
其次,我们将基于Coze平台,快速实现一个类似“Manus”的简单应用,让大家对当前Agent平台的能力边界和开发体验有更直观的认识。
最后,我们将以去年我参与的创业项目**“AI表格”** 为例,深入拆解一个真正的工作流项目是如何构建的,其核心挑战又在哪里。
第三天:掌握AI知识库的精髓
第三天,我们将介绍AI项目的另一大主流品类,也是80%企业都会遇到的场景:AI知识库。通过实际案例,阐明一个真正可用的AI知识库应具备哪些要素。
完成本日学习后,你将掌握RAG、数据清洗等关键技术,足以应对和解决80%企业级AI知识管理的需求。
第四、五天:复杂AI应用实战演练
最后的压轴两天,我们将分享压箱底的干货,揭示生产级别的复杂AI应用的真实面貌。这部分内容将几乎涵盖AI应用落地的所有常见核心技术,包括但不限于:
- 模型的边界探索与AI项目的可观测性设计;
- 数据工程中的典型难点与应对;
- 上下文工程的实现策略;
- 飞轮系统的构建与启动;
- 为何说思维链(CoT)是2025年AI应用的核心;
- 模型微调的实际操作与考量;
- 知识图谱在复杂应用中的角色;
- ……
通过这五天系统性、高强度的学习,相信能够助力各位真正推开AI应用实践的大门!
行动指南:抓住AI人才红利窗口
近期,我一直在协助多家公司物色AI领域的人才。当前市场正面临一个现实:企业普遍遭遇AI人才短缺的困境!
Agent与Workflow核心差异剖析及架构选型实践指南
此前,一篇探讨《AI Agent架构存在固有缺陷,Workflow模式将持续存在》的观点文章,在技术社区内引发了一些争议,尤其受到一位身处Agent创业领域的CEO的明确反对。
其核心论点旗帜鲜明:Workflow已是过时的技术,当下全面步入Agent时代。并认为不应固守陈旧的技术观念。
这场讨论在社群中激起了广泛的辩论,众多产品与研发领域的同行参与了讨论。虽然最终未能达成共识,但从许多资深从业者的反馈中,印证了一个观察:Agent概念更容易获得资本市场的青睐,而Workflow则在实实在在地解决工程化问题。
随后,我撰写了另一篇文章《AI 编程不等同于Agent》,但事后仍觉意犹未尽,未能将核心差异阐述得足够透彻。因此,今天我们将以更通俗的视角,深入解析Agent与Workflow的根本区别究竟是什么?
核心理念辨析:自主决策权归属
两者的差异本质上是清晰可辨的。关键在于决策权掌握在谁手中。只要业务流程中的判断与决策主要由模型承担,即可归类为Agent架构。下图展示了一个典型的ReAct(思考-执行-观察)架构的Agent工作流:

相比之下,Workflow是在代码层面预先定义所有的流程分支与逻辑,模型仅作为流程中某些节点的“增强型API”发挥作用,根据输入产生确定的输出。Agent则把传统编程中大量的if/else条件判断移交给了模型来处理。
由此引申出两者截然不同的特性:
- Workflow 的核心优势在于:稳定性高、执行成本低、响应效率快。但其缺点也显而易见:灵活性严重不足,任何流程上的细微变动都依赖人工介入调整。
- Agent 的核心优势在于:灵活性强,能够适应更广泛和多变的场景。但其代价是:内部过程如同黑盒,可解释性差,且基于ReAct的架构天生在稳定性、成本和响应延迟方面面临挑战。
让我们通过一个具体功能来直观区分二者。对于查询“上海天气怎么样?”这个需求:
-
Workflow模式下,首先需要进行意图识别。这可以通过规则程序或一个分类模型来实现,判断用户语句是否包含天气查询意图。一旦确认,便解析出地点参数(如“上海”),随后由程序主动调用相应的天气查询API。
-
Agent模式下,其底层动作与上述有相似之处,但架构哲学不同:
- 两者调用的后端API可能完全相同。
- 关键差异在于决策链。在Workflow中,意图识别是开发者显式编写的程序逻辑。如果意图类别繁多,代码可能变得臃肿:
Workflow的所有路径都是预先定义和显式判断的。if (匹配“天气”意图) { 执行天气查询Workflow } if (匹配“旅游”意图) { 执行旅游规划Workflow } if (匹配“机票”意图) { 执行机票查询Workflow } // ... 更多if判断
Agent架构的差异点在此显现。它无需编写大量的
if判断,取而代之的是向模型提供一套“工具”定义:[ { "tool_name": "get_weather", "tool_desc": "查询指定城市的实时天气情况", "tool_examples": ["上海天气怎么样", "北京明天会下雨吗"] }, { "tool_name": "plan_travel", "tool_desc": "为指定城市生成游玩建议和计划", "tool_examples": ["上海有哪些值得去的景点", "在北京玩三天怎么安排"] } ]这可以视作大模型提供的一种高级抽象(或“语法糖”)。它并未消除判断本身,而是将判断逻辑封装并融入到对工具描述(
description)、名称(name)和示例(examples)的理解中。其核心驱动力在于:大模型强大的语义理解能力,极大地提升了系统对多样化、非标准用户输入的泛化处理能力。
因此,一个基本结论是:在Agent中,原先由硬编码实现的流程分支判断,被模型的工具选择与调用决策所替代。这正是大模型泛化能力在架构层面的直接体现。
决策权的转移——即“由谁来决定调用哪个工具以及何时调用”,构成了Workflow与Agent最核心的差异。
项目选型策略:回归业务本质
基于上述分析,在Workflow中,业务流程由开发者完全固化,模型仅是流程中某些环节能力更强的执行单元。而在Agent中,业务逻辑的编排权被下放给了模型,模型需要先“思考”任务规划,再“选择”合适工具。这里的“思”与“选”高度依赖模型自身的能力,在某些专业或细分领域,模型可能难以做出有效的规划,工具调用(即意图识别)的准确性也会成为瓶颈:

因此,当模型能力尚不足以可靠地处理复杂决策,或者业务对稳定性、成本、响应速度有极高要求时,Workflow往往不是首选,而是唯一可行的选择。
更进一步的选型逻辑应从任务目标出发:如果业务场景对稳定性、成本控制、响应速度的要求是刚性的,那么应毫不犹豫地选择Workflow。
然而,从工程实践的角度看,Workflow与Agent并非互斥的二选一关系,它们常常以混合架构的形式共存:
- 核心业务保障:对于最关键的业务流程,尤其是出错会导致直接经济损失或严重客诉的任务,采用Workflow作为可靠性基石。
- 外围场景探索:对于非核心业务,或用户对偶尔出错容忍度较高的场景(如信息查询、内容生成、休闲娱乐),引入Agent架构以提升体验的智能度和灵活性。
采用这种混合架构的原因很现实:单纯的Workflow难以覆盖用户所有潜在、多变的需求,其覆盖率存在天花板。
AI Agent Skills系统深度解析:从Claude工程师实践看工作流迁移与调教心法
我之前曾指出,对于AI智能体(Agent)而言,记忆系统或上下文工程往往会成为其发展中的难点与瓶颈,而技能(Skills)生态才是其真正核心所在。这一点从OpenClaw的调教过程中便能得到印证:
大家在训练和优化这类智能体时,几乎不会过度关注上下文管理,但一定会持续不断地打磨Skills。原因非常简单:记忆系统通常是一个黑盒,难以直接干预;而Skills则是具体工作流程(Workflow)的迁移与封装。
因此,我们有必要再次深入探讨Skills,重新认识其价值。不过,这一次我们将引入更**“权威”**的视角:参考由Claude Code团队工程师Thariq撰写的一篇长文:
Lessons from Building Claude Code:
How We Use Skills
Skills系统概述
首先,现代语境下的Skills含义非常丰富。它不再是一个简单的提示词文件,而是一个完整的能力包。这个能力包具备可维护、可复用、可度量的特性。

作者强调,一个Skill本质上是一个文件夹,它可以包含脚本、资产文件、参考文档、配置文件、数据以及各种钩子(Hook)。
它通过渐进式披露的策略,在不导致上下文信息爆炸的前提下,将流程沉淀为可被触发的工作流。需要注意的是,这里所说的流程既可以是个人工作习惯,也可以是组织或团队的协作流程。
Thariq这篇文章的核心价值并非其中提供的几段指令模板,而是他提出的一个系统性建议。这个建议的实践结果,催生了一套可规模化的Skills管理系统:
- ***技能分类法(共9类):***帮助你像管理产品功能矩阵一样管理技能组合;
- ***设计原则:***避免写入常识性内容、将易失败点明确标注为“Gotchas”、利用文件系统实现渐进式披露、防止过度“牵引”模型行为、确保初始设置(setup)可恢复、从“提示工程”转向“上下文工程”;
- ***分发与治理机制:***从项目仓库内的
.claude/skills目录,到插件化与市场(Marketplace);从“自发试用”过渡到“被动发现+准入门槛”,以解决规模化后带来的技能冗余、冲突与上下文成本上升问题; - ***度量闭环:***利用 PreToolUse 钩子记录Skill调用情况,识别热门技能、低触发技能及过度触发技能,从而将主观的“感觉很好用”转化为可量化、可迭代的增长系统。
原文链接如下:
https://x.com/trq212/article/2033949937936085378
我明白这些概括性的要点可能不易理解,它们相当于整篇文章的摘要。我们后续会逐一详细解释,因此不必担心。
这里需要补充两点:尽管Skills概念最初由Claude团队明确提出,但现在几乎所有主流的基础模型都对其提供了支持。这清晰地预示着一个趋势:
Skills正在成为AI Agent的通用中间层,它介于模型的基础能力与**具体工具(Tools)**之间,专门用于承载和封装各类流程与工作流。
简而言之,Skill就是为Agent准备的标准化作业程序(SOP)包。其内容核心,很多时候也确实就是SOP本身。
接下来,我们将进一步拆解,详细说明Skill包的组成部分及其运行机制。
Skills技术架构拆解

Skills包(或文件夹)是一种可执行的配置与资产封装格式,其典型结构如下所示:
<skill-name>/
├── SKILL.md
├── references/
├── assets/
├── scripts/
└── 其他配置/数据文件

这意味着,一个Skill是一个目录级的能力单元:
- SKILL.md:作为整个能力包的入口文件与主要说明文档。
- references/:用于存放长文档、参考资料、规则解释等背景知识。
- assets/:用于存放模板文件、样例、静态资源等。
- scripts/:用于存放可执行的脚本文件。
- 必要时还可以包含 hooks、config、data 等目录或文件,用于承载约束条件、配置项与持久化状态。
这里需要再次强调:Skill的本质不是提示词的简单增强,而是工作流的系统性封装。
首先,我们来解析最外层的SKILL.md文件。
一、SKILL.md:总入口与调度中心
许多人会本能地认为SKILL.md就是写给模型阅读的正文内容,因此试图将所有说明、注意事项和流程步骤一次性全部塞入其中。
这是一种常见的误解。
SKILL.md真正扮演的角色,是这个能力包的索引页、路由页与使用说明页的综合体。它至少承担着以下四个核心职责:
- 向模型说明这个Skill是做什么的。
- 向模型阐明在什么情况下应该触发这个Skill。
- 引导模型在触发后,应该先读取什么内容,后读取什么内容。
- 规定模型输出的结果大致应该是什么样的格式或结构。
因此,SKILL.md实际上是一个调度入口:
一个Skill包就像一个项目文件夹,而SKILL.md则是这个文件夹的README文件、运行手册(runbook)和路由契约(routing contract)的结合体。
由于SKILL.md的核心作用是说明**“具体如何操作”**,其撰写原则也就清晰了:
- 主流程必须清晰明了。
- 触发条件和边界必须明确。
- 关键易错点需要突出强调。
- 引导模型按需读取references、assets等其他目录的内容。
二、description字段:触发协议
许多Skill失效,问题不在于内容本身,而在于description字段的编写。大多数人在撰写description时,产出的内容更像产品功能简介:
AI Agent 技能演进深度解析:从技术革新到价值评估与应用实践
本文的思考源于我个人近半年在Agent领域的生产实践,以及与众多团队在过去一年间关于Agent的深入交流。这些讨论也源于我对诸如Manus这类项目所抱持的一些疑问。
当前,业界对于Agent的看法呈现出两种截然对立的观点:一方坚信Agent就是未来,将取代其他过时技术;另一方则断言Agent(如Manus)毫无用处,无法解决实际问题。
以下是两派观点的真实摘录:
Agent支持派 AI技术的发展日新月异,上半年的经验到了下半年可能就已经失效。 去年Dify、n8n等工具备受推崇,但随着今年Agent模型的流行,新启动的项目普遍采用具备自主规划能力的Agent方案,已经很少有人再去考虑Dify、n8n这类被认为是过时的思路了。 事实就是,新型Agent相较于旧式工作流,在效果上有着巨大提升。 它缺乏专业数据、没有专属的工具链、没有行业认证、未能与业务深度集成,也没有绑定高价值的业务场景。换言之,任何人都可以模仿构建。因此,它更像是工程能力的延伸,而非在构建具有壁垒的场景护城河。 用户会发现,当他们面临真正复杂的挑战时,这种通用Agent仍然无能为力,最终不得不转向专业的垂直解决方案或人工服务,这导致了用户留存率的持续低迷。 ……
总结来说,现状可以概括为一句话:有人认为Agent已近乎无所不能,代表着当前最先进的生产力;也有人认为Agent毫无价值,缺乏技术壁垒,耗费资源且无法解决实际问题。
如何理解这两种极端观点呢?过于悲观和过于乐观的认知都存在偏差,其直接后果是导致企业决策混乱——要么盲目投入,要么完全放弃投入。
在过去三年中,我全身心投入AI相关工作,先后接触了超过40家公司,主导或参与了25个AI项目(投入规模从过亿元到不足十万元不等)。基于在Agent领域的实践与思考,我希望能系统性地探讨以下核心问题:
Agent技术究竟先进在何处?它是否真的具备解决实际问题的能力?
Agent为何在2025年迎来元年
首先,必须明确Agent的核心在于调用外部工具。严格来说,Function Calling是Agent架构得以成立的基石,正是因为有了这项能力,模型才得以正式、规范地使用各类Tools。
虽然在OpenAI官方提出Function Calling概念之前,开发者也能通过训练特定模型或引导模型输出特定格式来模拟工具调用,但这终究不是通用、标准化的方法,因为更换模型后其效果往往难以保证。
当前最经典的Agent框架是ReAct(Reasoning and Acting),其思想大约在2022年提出,相关论文《ReAct: Synergizing Reasoning and Acting in Language Models》中就已包含了伪Function Calling的实现。直到2023年6月,OpenAI的一次更新正式推出了Function Calling,将其作为ChatGPT产品的核心能力之一。此后,这项能力逐渐成为行业事实标准,各大基座模型纷纷跟进实现。有了这个稳固的基础,Agent的构建与普及才真正变得顺理成章。
国内“Agent”概念的火爆始于年初的Manus。但如果追溯更早且具有广泛影响力的开源Agent项目,2023年3月发布的Auto-GPT是一个标志。然而,即便是今年初的Manus,也因早期基座模型能力不足而表现欠佳,更不用说更早期的Auto-GPT了。
自Manus发布后,行业焦点逐渐从“2025 AI应用元年”转向“2025 AI Agent元年”。与此同时,模型本身也取得了长足进步,包括整体推理能力和上下文长度都得到了极大增强。我个人相信,各主流基座模型一定在工具调用相关数据上进行了大量微调训练,其直接体现便是2025年下半年,模型的工具调用能力出现了显著提升。
尽管模型在工具调用的稳定性上已有不小改进,但当可用工具数量增多时,仍会出现“找不到合适工具”或“胡乱调用”的问题。为此,Claude团队总结了大量工具调优经验,于2025年10月正式提出了“Skills”技术。可以将其视为对Function Calling机制的重要补充(当然,Skills的目标远不止于提升工具识别能力)。
现阶段,通过结合使用Skills、Function Calling以及精心的上下文工程,已经能够将工具调用的准确率提升到相当不错的水平(例如,我们实践中的某些场景可以达到90%以上,这在之前是难以想象的)。
以上是我从技术演进视角观察到的近三年Agent发展脉络。简而言之:在2025年之前,想要构建一个真正好用的Agent几乎是不可能的任务;而从2025年下半年开始,这一难度已大幅降低。
因此,最终的结论是:此前对于Agent的诸多质疑以及糟糕的产品体验,预计在2026年将得到极大程度的缓解。从这个角度看,Agent的发展直接依赖于模型底层能力的跃迁,任何工程优化可能都比不上模型自身一次关键的能力升级。
接下来,我们将剖析其核心的编排层,这有助于解释Agent为何会变得越来越强大。
核心框架剖析:思考-行动-观察的循环机制

许多开发者知道Agent的工作模式在模仿人类,但未必熟悉“ReAct”这一术语,也未必能深刻理解**“思考-行动-观察”** 这一循环究竟有何价值。
毕竟,多一轮交互就意味着更慢的响应速度和更高的资源消耗(Token成本)。那么,为什么需要设计这样的多轮循环呢?我认为这主要是为了弥补模型自身规划能力的不足。通过多轮的自我调优与验证,模型才能最终生成一个相对合理的行动计划。
这就像一个需要引导的学生。一个生动的案例可以说明这种循环“调教”对于模型做出合理规划的重要意义:
“六顶思考帽”是一种经典的“平行思维”框架,旨在将混乱的思考过程结构化。其核心是为思考者赋予六种不同的角色(“帽子”):
- 白帽:客观中立,只关注事实与数据。
- 红帽:感性直觉,表达情绪与直觉预感。
- 黑帽:谨慎批判,专注于风险与潜在缺陷。
- 黄帽:积极乐观,着眼于价值与机遇。
- 绿帽:创新创造,探索新想法与可能性。
- 蓝帽:统筹控制,管理整个思考流程并负责总结。
这一框架的威力在于强制切换视角,避免人们陷入单一的思维立场(例如一味批判或盲目乐观),从而实现对问题的全方位审视。以 “是否在公司启动一个Agent项目” 为例,运行一轮六顶思考帽,就相当于引导模型完成了一套ReAct循环:
- 白帽:我掌握哪些客观事实?公司现有基础如何?预算多少?有哪些现成的数据和系统可用?
- 黑帽:最坏的情况是什么?可能遇到哪些“坑”?哪些部门可能会强烈反对?
- 黄帽:如果项目成功,最大的收益是什么?对业务和团队能力会产生何种放大效应?
- 绿帽:在现有资源约束下,是否存在性价比更高的替代路线?例如,是否可以从改造一个小型流程开始,而非一上来就搭建全栈Agent平台?
- 蓝帽:将前述所有视角收束整合,形成一个可执行的行动计划:先做什么、如何分阶段、如何验证效果、失败后如何止损——最终由蓝帽角色收尾并输出结论。
这一整套流程跑下来,模型在持续地对自身的初步想法进行追问、纠偏和补充,实现了典型的“自我对话”。这带来了三个关键好处: 第一,强制补全思考的视角盲区;第二,将“想清楚”这件事,从一次性的直觉判断,转变为逐步逼近最优解的迭代过程;最终,让决策规划从不可捉摸的“黑盒”,变为可复盘、可分析的清晰过程。
“六顶思考帽”这种模式,实质上为模型设计了一套自我对话与训练的框架。从Agent的视角看,这是对 “思考-行动-观察” 这一ReAct循环进行了更精细的角色化实现。其结果印证了一个观点:模型的规划能力并非凭空产生,而是在一次次结构化的自问自答中逐渐“生长”出来的。
随着模型底层能力的持续增强,其生成的解决方案自然会更加完善。因此,从框架设计层面看,Agent架构确实具备越来越强的潜力,尽管目前较高的Token消耗成本暂时无法完全避免。