安装Codex后必装的5个办公插件:解放双手,让AI替你处理文档、PPT和网页
随着ChatGPT 5.5的推出,Codex的热度急速攀升,甚至让Claude Code显得有些黯然。得益于OpenAI更顺畅的安装流程和便捷的使用体验,一大批用户涌入了Codex的阵营。本文将分享我认为安装Codex后最值得优先配齐的5款插件。
很多人因为“Codex”这个名字,下意识觉得它只能用来写代码,但实际上处理日常办公任务才是它的强项——管文件、跑命令、写文章、梳理项目,样样在行。一旦用顺手了,它就会变成你全天候的智能工作台。

归根到底,插件就是给Codex装上手脚。原本它只能窝在对话框里输出文字指导;可一旦插上插件,它就能亲自打开浏览器、看懂Figma设计稿、编辑Word文档、制作PPT、处理电子表格。你再也不用按照它的提示一步步动手了,只需把任务直接交给它,回头检查工作成果就行。
但千万注意:插件绝不是越多越好。别像逛杂货铺一样见一个装一个,除了拖慢响应毫无意义。优先把这5个高频场景对应的插件补齐,就足以覆盖绝大部分日常需求了。

- 浏览器操控(Browser Use):让Codex亲手浏览并交互
核心能力:赋予Codex真正打开浏览器的权限,让它可以访问网页、点击按钮、填写表单并截图验证页面表现。
适用场景:只要任务里出现“打开网页看看”“帮我测试localhost页面”“点一下这个按钮”“截图确认一下效果”这样的需求,就该立刻启用它。
这个插件堪称必装中的必装。市面上许多AI工具声称能“浏览网页”,实则不过简单搜索一下,或者读一读静态文本。而Browser Use更像是给Codex接上了一双眼睛和一只鼠标——它能深入网页内部,看到真实渲染出来的样子,并且执行点击、输入和截图等真实操作。
对开发者来说,它最有用的地方在于前端验证。比如你让Codex修改了一个页面,不要轻信它那句“已完成”。最好的做法是让它用Browser Use打开网站,肉眼确认页面有没有崩溃、按钮能不能点、文字有没有挤压在一起。

高效技巧:凡是涉及网页制作的任务,一定要让Codex在最后用浏览器做实际验证。光看代码很容易陷入盲目自信,打开页面才发现布局早已面目全非。AI写前端时尤其容易“脑补成功”,这类翻车现场我见过太多。如果你经常让Codex写网页、搭后台、做静态页面,这个插件基本就是刚需。
- Figma 设计助手:把设计稿直接变成代码
核心能力:让Codex连接Figma,读取设计稿、生成前端代码、将页面内容回写到Figma,甚至维护设计系统。
适用场景:从设计稿到代码实现、从代码反哺设计稿、批量整理Figma图层、同步设计组件库,全都交给它。
Figma插件很适合两类人群。一类是开发者:设计师丢给你一个Figma链接后,你再也不用一边看设计一边量尺寸、取色值、算间距了。直接让Codex读取设计稿,再结合项目里的组件库和样式规范实现出来。另一类是产品原型设计师:脑中有了页面概念,却不想从空白画布从头画起,就可以让Codex先在Figma里搭好基础结构,自己再做人工精调。下面这张图就是通过对话让Figma生成的设计。

更厉害的地方在于,Figma插件底下其实延伸出了一整套能力,例如:
figma-use:直接在Figma文件中进行操作figma-implement-design:把设计稿实现为前端代码figma-generate-design:根据页面描述生成Figma设计figma-code-connect:将Figma组件与代码组件关联起来figma-generate-library:搭建完整的设计系统
这些名词有个印象就好,完全不用死记。你依旧用人话描述任务,Codex会自动判断该调用哪一个。
不过要留个心:Figma这套能力对账号、文件权限和桌面端状态非常敏感。如果文件躺在个人Drafts里,就可能读不到;Figma桌面客户端没打开,也可能连接失败。碰到这种情况,先别急着自我怀疑,检查权限和桌面端运行状态就能解决大部分问题。
- 智能文档处理(Documents):直接操控Word
核心能力:让Codex创建、编辑、审阅Word文档(.docx),并提供渲染检查,绝非随便丢个文件给你。
适用场景:撰写方案、修改合同、整理访谈纪要、进行标红修改、添加批注等所有Word相关任务,都能放心交给它。
对于经常和文字材料打交道的人来说,这个插件简直是效率救星。以往让AI“写个Word文档”,往往只是生成一段Markdown,然后自己手动复制、排版,文档稍长一点点就让人头皮发麻:标题格式、表格、批注、分页全部得亲手调整。Documents插件解决的就是这个核心痛点:它可以直接处理.docx文件,并在输出前进行渲染校验,而不是草草糊弄一个文件了事。
它很擅长这些场景:
- 将一堆零散的会议记录整合为正式纪要
- 把Markdown草稿一键转成结构工整的Word方案
- 对已有Word文档的指定段落进行修改
- 为合同、制度、方案添加审阅意见和标注
- 生成带目录、多级标题和规范表格的正式文档
高效技巧:如果要做的是正式交付给客户或领导的文档,我的习惯是先让Codex用Markdown确认结构和文字无误,再让它转成Word。这样可以避免一边改内容、一边改格式,把自己绕晕。
- 幻灯片生成器(Presentations):批量制作PPT
核心能力:创建、编辑、渲染并验证PowerPoint文件(.pptx),让PPT制作从体力活变成一句话的事。
适用场景:工作汇报、项目方案、培训课件、产品介绍、路演材料,凡是需要幻灯片的场合,它都能帮忙扛下大部分工作量。
PPT堪称许多职场人的噩梦,往往不是不会写,而是太耗时间:先搭结构、再填文案、再拆页、再排版、再调图表,最后还要一页页排查错别字和遮挡问题。Presentations插件可以帮你吃掉前面70%的纯体力活。
它尤其适合这样的指令:
- “把这篇长文整理成10页PPT”
- “根据这个方案生成一份汇报材料”
- “帮我把这份旧PPT改得更清晰专业”
- “制作一份零基础入门的培训课件”
使用技巧:请求生成PPT时,别只说“帮我做个PPT”。最好同时说明三个关键信息:听众是谁、演讲时长以及你希望他们听完后做什么决定。同样是“Codex插件介绍”,对开发者讲就侧重工作流,对老板讲就侧重效率与成本,对新手讲就侧重易用性。对象不同,PPT的框架和侧重点完全不同。
最后的审核:PPT生成完毕后,一定记得渲染查看,别看到文件存在就觉得万事大吉。PPT最怕文字溢出、图形遮字、页面过满,这些问题只需渲染一遍就一目了然。
- 表格精灵(Spreadsheets):Excel、CSV全能处理
核心能力:让Codex处理Excel、CSV、TSV等各类表格文件,实现清洗数据、编写公式、生成图表、制作报表等一系列操作。
适用场景:数据整理、预算测算、任务清单、统计分析、表格格式化,凡是涉及表格式数据的工作,都可以让它代劳。
这个插件看起来不像Figma和Browser Use那样炫酷,却无比实用。因为日常工作到最后,总会或多或少落到表格里:需求池是表格,预算是表格,排期表是表格,客户名单是表格,数据分析更是离不开表格。让AI在聊天里简单列两行并没什么用,真正有价值的是能生成一个可以打开、筛选、计算并且格式像样的Excel文件。

它很适合处理这些事情:
- 将凌乱的CSV清洗为规范表格
- 给Excel文件添加公式、筛选和冻结表头
- 把调研结果整理成统计总表
- 快速定位表格中的异常数据
- 根据数据自动生成图表和汇总页
经验之谈:只要超过20行的数据,我都懒得在聊天框里挨行查看了。直接让Codex做成可下载的表格文件,打开后自己筛选、排序、标颜色,效率要高得多。对于做项目管理的朋友来说,这个插件几乎可以承包所有需求清单、工作列表和排期测算。
这5款插件如何协同作战?
单独看每个插件,它们只是补充了一种能力。真正厉害的是把它们串成一条工作流。这里举几个非常现实的应用场景。
场景一:打造一个产品原型 你可以先让Codex借助Figma搭好界面,再生成前端代码,接着用Browser Use打开本地页面核实效果,最后再用Presentations做一份完整的产品汇报PPT。
白嫖Claude 4.7模型攻略:亚马逊Kilo新用户免费体验Pro会员一个月教程
最近,亚马逊旗下的AI工具Kilo推出了一项限时福利:新账号首次订阅Pro会员,可以0元享受一个月的专业服务!

开通Pro会员后,就能直接使用Claude 4.7、4.6等旗舰模型,这个体验确实很香。


✅特别提醒两点:
- **必须是新账号:**如果之前用过Kiro,需要重新注册一个全新账户。注册流程其实非常简单。
- **需要绑定一张信用卡:**支持国内银行发行的Visa卡,比如工商银行、招商银行的Visa卡都可以正常使用。
下面就是完整操作流程,直接上干货!

1. 注册新账户
**注册地址:**https://app.kiro.dev/signin
不需要国外网络环境也能正常访问🤔

登录方式建议选择Google账号或者GitHub账号。
注册谷歌账号流程相对繁琐,如果想省事,完全可以直接注册一个全新的GitHub账户,门槛很低。
使用一个邮箱就能开通一个GitHub账户,而一个手机号又可以注册多个163邮箱,所以推荐通过163邮箱来批量创建多个GitHub账号。
2. 购买Pro会员

进入后点击每月20美元的PRO会员方案。

当跳转到付款页面时,如果看到需支付金额为0,就说明你的账号是新账户,可以白嫖一个月。
如果你确定自己是新账号但显示金额不是0,试着多刷新几次,或者退出重新进入这个页面。
✅接下来填写信用卡信息,账单地址选择国内即可,例如我填的深圳就顺利通过。
✅信用卡有效期(月份/年份)和CVC安全码一般印在Visa卡背面,务必妥善保管,不要泄露!
如果不想暴露真实的身份和住址,可以使用在线地址生成器来填写。
**✅生成工具:**https://www.zhongguodizhi.com/

3. 确认订阅成功

4. 查看可用模型
在Kiro的使用界面检查是否已经可以调用Claude模型。
**页面直达:**https://app.kiro.dev/home

5. 取消自动续费
订阅后会默认开启自动续费,下个月就会自动扣款。
所以我们最好立刻把它关掉,同时Pro会员身份依然保留,简直神操作🤣
进入用量管理页面。
**页面地址:**https://app.kiro.dev/account/usage

点击更新订阅方案。

然后选择Free免费订阅。

将页面滑到最底部,点击继续按钮,最后提交。

确认之后,下个月就不会再自动扣款,但Pro会员权益仍然可以继续使用。
6. 下载Kiro软件与反代思路
Kiro官方也提供了独立的IDE软件,不过我个人体验觉得不太好用。

现在做编程或者写文案,大家更多依赖Codex、Claude Code这类工具。
那么问题来了,怎么把Kiro里面的Claude模型搬到Claude Code里去用呢🤔?

答案就是借助“反代”技术。
什么是反代?通俗说,就是通过一个中间程序,模拟你在Kiro里和Claude模型对话的过程,然后对外提供一个API接口,你把这个API配置到Claude Code里就可以直接调用模型了。🤔

目前社区里最流行的反代工具是大名鼎鼎的CPA。
**✅项目地址:**https://github.com/router-for-me/CLIProxyAPI

这个工具还可以把网页版ChatGPT的模型轻松反代出来。如果你手握多个ChatGPT Plus账号,就可以利用CPA把GPT-4.5、GPT-4.6等模型反代成统一的号池来使用。
从理论到实战:手把手教你搭建可进化的AI技能助手
之前《一文带你全面了解skill——入门教程》带大家认识了大模型技能(Skill)的基本概念。我也反复强调,亲手创建自己的Skill才是能力提升的核心。
如今市面上不少所谓的AI速成课程,动辄收费几百元,号称带你“用AI做项目”,拆开来看,本质也就是教你搭一个Skill。只不过人家更会包装,把构建Skill重新命名为“打造高度个性化、可重复调用的私人助手”。
今天这篇文章,零成本,手把手,从想法到实现,同样帮你做出一个真正意义上的“高度个性化、可重复使用的私人助手”。
先想清楚:你要搭建一个什么Skill
先静下来想一想,日常工作中最重复、最固化的事情是什么。你是否希望把这项任务沉淀成一个“助手”,以后只需要下达指令就能自动完成?
例如,我作为一个自媒体作者,每天写稿最头疼的就是灵感枯竭、下笔困难。于是我问自己:能不能构建一个Skill,只要我说明想写什么主题,它就能按照我的写作风格生成一篇文章?
新手搭建Skill的常见误区
有了想法之后,很多人会立刻上手。你可能会觉得:“这不简单吗?把我写的几篇文章贴进去,让AI学习概括,生成一个Skill不就完了?”
说实话,这样做也能拼凑出一个能跑通的Skill,但这个Skill一出生就是“死”的,后续很难真正帮到你。
匆忙搭建的Skill通常有四个致命问题:
- 写出来的内容表面上有你的影子,但读起来空洞无物,缺少实质性思考。
- Skill不够垂直,不管你写什么题材,输出都千篇一律,缺乏领域针对性。
- 人的风格与想法是不断迭代的,而这个Skill永远停留在初始状态,不能生长。
- 功能单一,只能生成新文章,却无法进行修改、审校、续写、润色等延伸操作。
这些都是初学者最容易踩的坑。试过几次觉得不好用,很快就失去信心,转而到网上搜寻现成的Skill。可这样永远也走不出自己使用AI工具的“困局”。
搭建Skill的五项原则
基于大量实践,我把构建持久可用Skill的方法论凝结成五项原则:
- 垂直原则:Skill必须聚焦。以写作为例,可按文章类型(软文、干货、故事)或篇幅长短分别搭建不同Skill,保证每个Skill高度专一。
- 学习原则:Skill必须持续进化。要为其设计学习能力,让它吸收你新发表的作品,也能将你修改后的定稿与它生成的初稿进行对比,从中习得差距。
- 遗忘原则:有成长就要有淘汰。当你发现某些过时写法还在被反复使用时,就要让它遗忘;当新旧知识产生冲突,或被长期闲置时,同样要触发遗忘机制,保持Skill的活力。
- 铁律原则:为每个Skill设定一条不可绕过的铁律(Hook),每次调用必须强制执行。AI在处理Skill时,对那些“可做可不做”的流程常常自动跳过,铁律能保证关键环节不被省略。
- 完整原则:一个Skill应当覆盖困扰你的整个问题域。比如写作类Skill,不仅要能从头创作,还必须内置修改、润色、续写以及自我检查纠错等功能,形成一个完整的闭环。

无论构建哪一个Skill,只要基于这五项原则,把每个维度都想深想透,你就能打磨出一个出色的助手。
我习惯将这些原则整理成规则文件,放置在AI编程工具的rules目录下,并与Skill创建流程绑定,让每次新建Skill时都能自动遵守。如果需要,也可以干脆把这份材料发给AI,让它自行提炼成可复用的创建规则。

下面是我按照以上原则搭建的一个Skill的实际运行效果。

搭建Skill的实用技巧
除了上述五项原则,我在大量实践中还总结出几条屡试不爽的实操技巧:
- 动手前心中要有清晰的预期,明确这台“助手”最终该达到什么水准,不达标就持续打磨优化,绝不将就。
- 利用已有的Skill创建工具(如create-skill)定期对你搭建的Skill进行评测,一旦发现不符合期待,直接口头提出升级要求,让AI替你改造。
- 搭建完成后,建议记录每一次调用Skill的日志,以及每次修改前后的内容。把这套日志与遗忘机制结合起来,就能精准优化Skill的长期表现。
- 我偏好一个Skill只专心解决一件事。例如在做“原型图转UI”的任务时,我会拆成两步:第一步,用Skill A把原型转成结构化的Markdown文档,清晰描述设计思路;第二步,再用Skill B将这份文档转化为正式的UI设计。拆分后,哪个环节出问题就能快速定位,迭代也更高效。
把所有心得融会贯通,你也能在反复实践中打造出真正顺手、会成长的专属Skill。愿每一位探索者都能在使用AI的过程中,找到属于自己的乐趣与效率。
豆包输入法用AI语音输入终结九宫格键盘之争,让沟通更高效
最近用了一款让我相见恨晚的产品,就是豆包输入法。自从用了它,连微信自带的语音功能都很少打开了。只要长按空格键,说话之间就能自动转成文字,便捷程度超乎想象。
最打动我的是它语音转文字的准确度。

以前我用微信语音转文字,问题一堆:周围人的声音经常被录进去,识别我自己的话也磕磕绊绊,断句毫无逻辑。每次说完一大段,里面全是“嗯嗯啊啊”的语气词,事后还得再花时间修改。
豆包输入法基于AI引擎,能智能过滤掉这些无意义的语气词,还会对你说的内容进行“思考”和整理,生成一条流畅自然的句子。单凭这两点,就让我一上手就彻底喜欢上,还忍不住到处向朋友和同事推荐。
因为我自己一直说普通话,不太清楚方言场景下的表现,有用过方言的朋友可以说说实际体验。
最初知道这个输入法,是偶然看一位主播直播。三个中年人打字费劲,全程全靠语音输入。我看他直播时一直对着手机说话,还以为他跟一些年长的客户一样习惯发语音,结果人家解释说是用豆包输入法直接转成文字发送出去。这让我记住了这个产品,试了之后果然很好用。
回想跟我聊天的一些人,手机打字很慢,有的甚至还在用手写。聊着聊着,他们常会主动放弃,发来一句:“手机打字太慢,我还是跟你发语音吧。”然后就是一长串60秒的语音条,我看着就头疼,真的没有点开的勇气。每次听都是对生命的消耗,我只能把它们转成文字,大概了解意思就好。看文字一目十行,听语音却必须从头追到尾,完全是浪费时间。

我对“废话文学”实在没耐心。想对这些人说,为了彼此的感受,不如试试豆包输入法吧。
作为一个中年人,之前我曾为用九宫格打字担心自己落后,强迫自己切换到全键盘,试图适应。那时候我觉得手机屏幕越来越大,九宫格很快会过时,怕厂商以后都不再做九宫格输入。但用了一段时间还是无法适应,最后灰溜溜地换回九宫格,以为自己已经老了,跟不上年轻人的节奏。
然而,AI语音输入法流行起来之后,九宫格和全键盘的争执突然就失去了意义,两者甚至都可能被时代一起甩在后面。这正应了那句话:“时代抛弃你之前,连招呼都不会打。”又有一句话我特别认可:“有些东西你还没来得及学,过一阵子就发现,它已经过时了。”
用了豆包输入法后,我的生活习惯也跟着变了。打字变得毫不费力之后,我开始在手机上随时记录,把一闪而过的想法写成笔记。无论是在地铁上还是在办公室,我都会自然地对着手机说话,偶尔会被同事多看几眼,朝我善意地笑笑。换作以前,我绝不可能这样做,但只要想到他们早晚也会走上这条路,我也就坦然了。勇敢的人总是先一部分享受生活,我觉得自己不过是比他们先走到时代前面一点而已。

现在我正在等待豆包输入法推出PC版本。搜狗输入法我早已苦不堪言,一直想卸载,但Windows自带的输入法时不时失灵,其他输入法又懒得尝试,只能将就用着。我畅想过,PC版豆包一旦用起来,自己会不会变成别人眼中“神神叨叨”的人,天天对着屏幕讲话。不过大概率我还是不敢在众目睽睽下这样做。只要能用到它对词句的优化能力就足够了,这也是我难以忍受搜狗的原因之一。
让语音成为PC端主要输入方式,这个工作习惯的改变可能还要再等一段时间。毕竟和安静的办公环境相比,语音输入确实容易打扰到别人。时代究竟会怎样演变,我们只能拭目以待。
独立站SEO优化实战:为导航菜单添加彩色促销角标提高点击转化
引言:为什么菜单角标是独立站SEO利器
导航菜单作为网站架构的关键组件,在SEO(搜索引擎优化)中扮演着双重角色:帮助搜索引擎梳理页面层级,同时以视觉线索引导用户注意力,驱动点击与转化。本文分享一个简单实用的技巧——在导航菜单项右上角添加自定义颜色的文字角标,快速吸引访客目光。
外贸独立站和跨境电商网站的成功,很大程度上依赖于流量的有效获取。流量通常分为免费的自然流量(主要通过SEO实现)和付费流量(如搜索引擎广告、社交媒体推广、网红带货等)。对商家而言,尽可能扩大自然流量的占比、降低对付费渠道的依赖,是控制成本、提升长期竞争力的关键。下面这套SEO辅助方法,能让您的独立站菜单成为转化入口,充分释放自然流量的价值。
效果演示

实现效果:在网站主导航菜单的特定项目右上角,显示一个彩色文字角标,醒目突出,有效引导访客点击,提升页面触达率和转化率。
典型应用场景:
①为促销活动、限时优惠等专题页面在菜单中增设角标,吸引注意力;
②为热门商品集合、主推爆品等链接附上角标,增加曝光。
操作步骤
本方法适用于基于WordPress构建的独立站。
第一步: 进入主题根目录,找到 style.css 文件,在末尾粘贴以下 CSS 片段。
纯色示例代码

渐变色示例代码

您可以根据需求修改 CSS 中的颜色值,自由定制更多角标样式。
第二步: 在 WordPress 后台的「外观」→「菜单」中,找到需要添加角标的菜单项,在导航标签字段输入以下 HTML 代码:
<span class="n-mark-red">必看 </span>
其中 n-mark-red 是第一步中 CSS 定义的类名,您可以替换成其他自定义类名,如 n-mark-blue、n-mark-gradient 等。

完成以上设置后,醒目的角标便会显示在菜单里,成为引导自然流量的有效触点。
多模态嵌入完全指南:对比学习、共享空间与跨模态搜索实战

不妨回忆一下,当你试图用语言向别人描述一段音乐时,对方往往只能无奈地说:“有点像 Billie Eilish,但更轻柔,还有一段钢琴……算了,你还是直接听吧。”在这个瞬间,语言放弃了解释,转而邀请对方直接体验。这并非语言的无能,而是提醒我们:语言本质上是对经验的有损压缩。就像任何压缩形式一样,它总会舍弃一些东西——音色、质感、空间布局,或某种难以言表的整体氛围。
在人工智能近几十年的发展历程中,我们一直把这种“压缩”视为理所当然。搜索与检索系统普遍遵循一个隐含的前提:如果一件事没有被文字记录下来,它就不存在。
你有一档播客?先转录成文字。
你有一份扫描版 PDF 报告?用 OCR 提取文本。
你有一张战略会议上白板的照片?那就麻烦了。
每一次转换,都伴随着“损耗成本”——一点失真,一点信息的流失,让原始内容变得不那么完整。
可如果不再强迫一切数据都必须转化为文字,而是直接在原始形态下处理,却仍然能够搜索、比对和推理呢?
这正是多模态嵌入所赋予的能力。它将文本、图像、音频和视频映射到同一个嵌入空间,使得源于任意一种模态的查询,都能从其他所有模态中检索出相关结果。本文将深入探讨其工作原理,解释为何最新一代模型让其变得真正实用,并通过三个当下就可以构建的真实系统案例,展示如何把多模态嵌入与大语言模型结合起来,打造可落地的应用。
嵌入:理解向量空间的语义本质
在深入多模态之前,有必要先明确“嵌入”到底是什么。
嵌入是一种对输入数据(文本、图像、音频或任何信息)的学习型表示,被编码成高维数学空间中的一个点。例如,像 text-embedding-3-large 或 nomic-embed-text 这样的模型,接收一个句子作为输入,会返回一个通常包含数千个维度的向量。
嵌入最关键的特性在于:语义相近的输入,在嵌入空间中彼此靠近。比如,“dog”和“puppy”的向量距离很近,而“jira 工单”与“派对策划”的向量则相距甚远。

这正是现代检索系统的基石。不同于传统的关键词匹配,现在我们比较的是向量:将整个文档库编码为向量,再将查询语句编码为向量,然后检索出嵌入空间中最邻近的向量。最终实现的是语义搜索——它理解的是内容的含义,而非仅仅匹配字面词汇。
文本嵌入在这一任务上已表现出色多年。但顾名思义,它的局限也很明显:它只理解文本。如果你的数据是其他形式(如音频、图像或视频),就必须先转换为文字,否则就完全无法利用。而正如前文所述,这种转换有代价——信息会丢失。
共享嵌入空间:跨越模态的统一表示
想象一位技术支持工程师正在搜索公司的知识库,而这个知识库不仅包含文本文档,还有客户通话录音、扫描版技术手册和产品演示视频。他输入查询:“阀门密封件在压力下失效的那个部分”。答案其实就在一段 40 分钟的故障排查视频中,大约第 22 分钟处,屏幕上清晰展示了失效过程。
在纯文本嵌入的检索流程中,这种情况几乎无解:
- 即便将视频中的语音转录为文字,也只能捕捉到“说了什么”,却无法反映“画面中展示了什么”;
- 对技术手册做 OCR,图示信息会丢失;
- 视频字幕(如果有的话)通常只记录对话,不会描述操作人员的手部动作或设备状态。
信息明明就在知识库里,却因为格式问题变得“不可达”。
从概念上讲,解决办法其实很简单:把所有模态的数据都编码到同一个共享的嵌入空间中。这样一来,不论查询是文本、图像还是音频,都能跨模态匹配到最相关的内容。
真正的挑战在于:如何训练出一个模型,能稳定、一致地在不同模态之间实现这种对齐。这需要海量的多模态数据、精心设计的训练目标以及强大的模型架构——而近年来的技术进步,正让这一目标变得愈发可行。

模型如何学会对齐不同模态:对比学习的魔力
实现多模态对齐的核心技术是对比学习。其思路很直接:收集成对的多模态数据——比如一张照片及其对应的标题、一段音频与它的文字描述——然后同时训练两个编码器,一个处理图像,一个处理文本。
训练信号非常直观:
- 配对的数据(如图片与它的真实标题)在嵌入空间中应彼此靠近;
- 未配对的数据(如图片与随机标题)则应彼此远离。
在每个训练批次中,模型会将每张图像与该批次中所有文本进行匹配打分,目标是让正确的图文配对获得最高相似度,而其他错误的配对则被惩罚。通过在数亿甚至数十亿这样的配对数据上反复训练,两个编码器最终会收敛到一个语义主导、格式无关的共享几何空间——在这个空间里,“狗”的图像向量和“狗”这个词的文本向量靠得很近,而与“汽车”或“交响乐”则相距甚远。
CLIP(对比语言-图像预训练,OpenAI,2021)是首个在大规模上成功验证这一方法的模型。它在4 亿个图像-文本对上进行训练,能够在零样本设置下准确匹配图像与文本,性能甚至可以媲美在特定任务上专门训练的有监督模型。
CLIP 的突破不仅在于规模,更在于它证明了:无需人工标注类别标签,仅通过自然语言描述与图像的弱对齐,就能学习到强大的跨模态语义表示。这为后续涵盖音频、视频等更多模态的嵌入系统奠定了根基。

继 CLIP 之后,ImageBind(Meta,2023)将对比学习扩展到六种模态:图像/视频、文本、音频、深度图、热成像和惯性测量单元(IMU)数据。更巧妙的是,它不需要所有模态之间都存在直接的配对数据——所有模态都通过图像作为“锚点”进行对齐,音频与文本等其他模态之间的关系会通过图像间接传递,形成一种“传递性对齐”。
然而,这种“桥接式”对齐隐藏着一个根本性问题。NeurIPS 2022 的论文《Mind the Gap》指出:每个模态的编码器在高维空间中会天然形成狭窄的锥形簇,而不同模态的锥形簇并不完全重叠。对比学习只关注配对样本之间的相对距离,并不会强制缩小模态锥之间的绝对间隙,因此模型没有动力去弥合这一鸿沟。这种分离会不可预测地影响检索精度,并在下游任务中引入偏差。
这一发现为下一代模型指明了方向:从零开始联合训练所有模态,采用单一统一架构。如今的原生多模态嵌入模型正是这么做的——它们不再依赖文本作为中介,而是让所有模态在同一个表示空间中协同学习。正是这种转变,使得下文将要讨论的应用从“理论可能”变成了“工程可行”。
设计多模态检索系统的关键决策
在具体实现之前,以下几项架构选择对实际效果的影响,往往比模型本身的选型更大。
原生嵌入 vs. 桥接式嵌入
- 桥接式(常见做法):将所有数据先转为文本(如语音转录、OCR、视频字幕),再用成熟的文本嵌入模型处理。
- 优点:简单,与现有系统兼容。
- 缺点:承受全部“转换成本”——丢失音调、布局、视觉动作等关键信息。
- 原生嵌入(如 Gemini Embedding 2):使用从头联合训练的多模态模型,直接以原始格式嵌入各模态。
- 优点:保留音频中的语气、PDF 中的排版、视频中的操作动作。
- 缺点:相对较新,工程生态仍在成熟过程中。
建议:若任务高度依赖于非文本语义(如故障诊断、艺术分析),优先考虑原生多模态嵌入。
港大OpenHarness开源项目首周揽获6.9k星:为LLM打造完整Agent基础设施
随着Agent Harness范式的快速升温,香港大学数据科学研究所(HKUDS)全新开源的AI项目OpenHarness仅上线不到一周,便迅速积累起6.9k个GitHub Star,引发开发者社区的广泛关注。
项目地址:https://github.com/HKUDS/OpenHarness

OpenHarness(简称 oh)是 Agent Harness 模式的一个开源Python实现——它并非简单的“又一款AI聊天机器人”,而是大语言模型(LLM)外部的一整套基础设施层,能够将LLM转变为功能齐全的自主编程Agent。OpenHarness赋予了LLM 双手、双眼、记忆与安全边界,使其能够读写你的代码库、执行Shell命令、管理文件,并与其他Agent协作——所有行为都在可配置的治理规则下安全运行。

整个项目由163个文件中约11,700行Python代码构建,却实现了对Claude Code高达98%的工具覆盖(43个工具对比Claude Code约44个)以及61%的命令覆盖(54条命令对比约88条),而代码体积轻量了44倍。通过剥离遥测、OAuth复杂度等企业级负担,OpenHarness留下了一个纯净且对研究友好的Harness架构,任何人都能轻松理解、实验和扩展。
架构概览
OpenHarness以 10个子系统 为核心进行组织,每个子系统都封装在 src/openharness/ 目录下的独立包中。整体采用分层设计:Agent循环构成核心引擎,底层工具与技能为其注入能力,外围的治理机制保障安全,而UI层则暴露给人类用户进行交互。

OpenHarness 的五大支柱
Agent 循环 — 交互的心跳
Agent循环是驱动每一次交互的核心周期。它将当前对话(消息 + 可用工具)发送给LLM,并接收流式响应;一旦模型决定调用某个工具,循环就会执行该工具(经过权限检查与Hook),并将结果反馈回对话——如此重复,直到模型给出最终答案。循环运行在 QueryEngine 内部,由它管理对话历史、跟踪Token用量并掌控整个流程。
核心能力包括流式工具调用循环、并行工具执行、带指数退避的API重试以及实时的Token计数与成本追踪。

Harness 工具箱 — 43 款工具

工具系统建立在简洁的抽象之上:每个工具都继承自 BaseTool,提供用于类型安全校验的Pydantic输入模型,并返回标准化的 ToolResult。ToolRegistry 负责注册流程,并自动将所有工具转换为与API兼容的JSON Schema。
| 分类 | 工具 | 描述 |
|---|---|---|
| 文件 I/O | Bash, Read, Write, Edit, Glob, Grep | 带权限检查的核心文件与Shell操作 |
| 搜索 | WebFetch, WebSearch, ToolSearch, LSP | 网页抓取与代码搜索能力 |
| 笔记本 | NotebookEdit | Jupyter 笔记本单元格编辑 |
| Agent | Agent, SendMessage, TeamCreate/Delete | 子Agent生成与团队协同 |
| 任务 | TaskCreate/Get/List/Update/Stop/Output | 后台任务生命周期管理 |
| MCP | MCPTool, ListMcpResources, ReadMcpResource | Model Context Protocol 集成 |
| 模式 | EnterPlanMode, ExitPlanMode, Worktree | 工作流模式切换 |
| 调度 | CronCreate/List/Delete, RemoteTrigger | 定时与远程执行 |
| 元操作 | Skill, Config, Brief, Sleep, AskUser | 知识加载、配置和用户交互 |
每个工具都自动融合了权限系统与Hook生命周期——无需任何额外配置。
告别AI反复犯错:用规则与Skill永久固化正确流程
学会对AI的道歉“免疫”
使用AI工具时,很多人都经历过这样的场景:你认真指出某个错误,AI也诚恳道歉,并承诺“我已经记住了”。你以为问题就此解决,但紧接着换一个对话窗口,同样的错误卷土重来;甚至就在同一个窗口里,隔一两天又重演了。
其实这并不奇怪。当前大部分AI并不具备真正的长期记忆能力。每一次新对话都意味着新的“智能体”,之前的上下文会被全部清空;即使在同一会话中,缓存也可能被清除,过去发生的事也就被“遗忘”了。所以,道歉更像是一种即时的话术回应,并不能真正改变未来的行为。
过去我也曾被这种“态度”打动,觉得AI说“你说得对”“我理解了”“以后会注意”时,它就已经吸收了教训。可反复三番之后才发现,它最大的特长就是“态度极好”——你骂它不生气,你纠错它立刻认,你让重写它二话不说。可惜,这种“听话”只在当下。如果你没有把犯过的错固定成某种永久记忆,下一次它很可能又踩进同一个坑。
所以,我们需要转变思路:别再把精力花在希望AI“长记性”上,而是想办法让它“再也没机会犯错”。AI归根结底是工具,工具需要持续调校,才能越来越懂得你的工作习惯。实现的方法主要有两个——把错误记成规则,或者封装成Skill。
方法一:将常见错误固化为规则
最近Github上很火的一份文档,本质上就是在做这件事:把AI高频错误整理成一条条规则。

这份文档源自Andrej Karpathy对日常使用AI时出现问题的吐槽汇总,核心原则可以概括为——“不假设、不臆测、不擅自改动、必须验证结果”。道理简单而通用,但放到你自己的场景里,仍然会遇到大牛也覆盖不了的细节。这时候,就需要你亲手把那些只属于你的“坑”写成规则。
举个例子,如果你频繁让AI创作文章,可以准备这样一组约束:
写文章时遵守以下规则:
1. 不用宏大背景开场,必须从具体场景切入。
2. 不在结尾硬套“三点总结”。
3. 绝不编造用户没有给出的个人经历。
4. 不要为了“完整感”把每段都写成说明书。
5. 如果不知道用户真实经历,用“这里可以补一个自己的例子”提醒,而不是替用户虚构。
再比如,我曾让AI检索关于Codex的资料,它明明可以直接参考项目文件夹里已有的完整教程,却偏要去互联网上漫无目的地搜索,不仅浪费时间还消耗大量 token。为了解决这个问题,我只需在项目的 AGENTS.md 里加一句规则:“查询 Codex 相关内容时,优先检索当前项目文件夹下的文档。” 就这一行,它从此再没犯过同样的错。
规则的优势在于:短小、明确,一句话就能堵死一条岔路。只要它适用于清晰的“不要做什么”的场景,规则就是最轻量的纠偏手段。
方法二:用Skill封装复杂流程
什么样的错误适合做成Skill?当无法用一两句话说清,或者必须按一整套固定流程执行时,规则就不够用了。你需要把一个完整的工作流封装起来,作为Skill固化。
比方说你让AI用Figma画图。如果只是随口下达命令,没有指定流程,AI很可能上手就画,看似积极实则无效——它没先理解需求、没拆解页面结构、没确定设计规范,也不知道哪些内容应该放主页面,哪些该弹窗或浮层。你这次费劲指导它改过来了,可下次再换一个任务,它又重走老路。
这时,一个Figma设计专用的Skill就能派上大用场,例如:
当用户要求用Figma画图时,严格按照以下流程执行:
1. 先理解要画什么,有任何不明确的地方先提问。
2. 拆分页面结构,梳理大板块、小板块及组件。
3. 输出设计方案,等用户确认后再继续。
4. 确认后才进入Figma开始执行。
5. 所有大板块用 Frame,小组件用 Group。
6. 弹窗、抽屉等浮层单独置于页面,不覆盖主页。
7. 完成时检查是否有重叠、错位或层级混乱。
这样一来,AI每次碰到Figma绘图任务时,就会自动按这条稳固的工作流运行,而不是临场发挥、到处乱撞。Skill的实质,就是把你自己验证过的正确路径强行锁定成 AI 的行为模板。
再举一个知识库整理的例子。之前我分享过《最近很火的用LLM搭建知识库的保姆级教程》,如果你仅仅在 CLAUDE.md 或 AGENTS.md 里写几条规则,很难实现理想的命名规范或个性化设置,这时候就需要补上一个专用的Skill。

规则和Skill互相配合后,整理知识库的过程会变得顺畅而稳定,AI再也不会在关键环节脱轨。
规则 vs Skill:如何选择?
判断标准其实很直观。能用一两句话说清楚、并足以杜绝错误的,就直接写成规则,例如“不要用某些词语”“不要硬总结”“不要编造经历”。如果涉及的是一整套容易出错的流程,比如写文章、整理知识库、做产品方案、画Figma、检查文稿等,就必须借助Skill来锁定整个链条。有些复杂项目甚至需要两者同时配齐,AI才会真正稳定下来。
需要提醒的是,现在AI圈流行一个词叫“Skillify”,主张把每一次AI的错误解决方法都赶尽做绝地做成Skill。我只认同一半。并非所有错误都值得上升为Skill,不加区分地堆砌Skill,不仅会加大token消耗,还可能让AI的表现越来越迟钝。在没成为资深玩家之前,不妨先试试这套规则+Skill的组合思维,好好琢磨一下怎么调教你的AI,效果会更扎实。
告别AI味设计:如何用DESIGN.md让AI写出高级感网站
最近在X平台上看到一个名为awesome-design-md的GitHub项目被频繁推荐。

截至今天,它已累积超过32k Star,如此高的热度显然说明它有些过人之处。

起初我并未特别在意。毕竟这类资源层出不穷——提示词合集、设计资源库、灵感收集站,常常是收藏时满怀热情,转眼便抛在脑后。
但今日抽空试用之后,才发现这个项目确实内涵丰富,值得深入探索。
如果你也常使用Claude Code、Codex、Cursor这类AI代理编写前端,一定能理解接下来的内容。

现在用AI生成一个页面已非难事,结构、组件、按钮和卡片都能迅速搭建。

核心问题不在于能否生成,而在于生成的结果往往带有鲜明的“AI味”:渐变紫、emoji、发光卡片、千篇一律的排版,初见尚可,再看便觉腻烦。

其实,并非模型不会编写页面,而是缺少一套明确的设计约束。你给出了需求、代码上下文甚至AGENTS.md,但并未告诉它页面应该长什么样。模型只能基于训练数据中最常见的模式,输出一个“平均值”。当设计停在平均值上,平庸便难以避免。

awesome-design-md的巧妙之处正在于此:它将诸多知名产品的视觉语言系统化整理为AI可直接读取的DESIGN.md文件。它既不是组件库,也非灵感收集站,更像一份为AI代理量身定制的设计规范。将其放入项目根目录之后,AI在生成页面时便不再凭空猜测,而是能够明确遵循颜色范围、留白大小、圆角、阴影、字体和排版等视觉边界。

这一点至关重要,因为页面的高级感往往就取决于这样一层约束。
两套设计风格对比
泛谈概念未免空洞,因此我做了一个小实验。在完全相同的页面需求、同一AI代理、同一套任务描述和提示词下,尽量控制变量,唯一的不同就是<font style="background-color:#FBDE28;">DESIGN.md</font>。
模型使用Kimi官方的kimi2.5,工具通过Claude Code调用,共测试两组风格(详细提示词见文末)。
- 一组选用
Claude风格。 - 一组选用
Vercel风格。
之所以对比这两者,是因为它们的视觉差异十分明显。
Claude风格更显温和,布局舒展,贴近内容型产品,浏览时带来一丝陪伴感。

Vercel风格则完全相反:更冷、更克制,自带工程师气质,黑白灰对比强烈,留白充裕,充满秩序感。

生成结果展示
先看Claude风格的生成效果。

再看Vercel风格。

两个版本均是一次生成,未做任何手动调整。
两者风格迥异。个人更偏爱Vercel这套,干净利落,商业感更强;Claude版本也不错,更柔软,适合内容产品。你更喜欢哪一版?欢迎在评论区分享你的看法🤔。
DESIGN.md使用指南
仓库地址:https://github.com/VoltAgent/awesome-design-md
第一步,进入仓库,选择你想要对标的网站风格。

第二步,点击详情页,查看对应的设计说明与预览图,通常会提供明亮和暗色两种模式。
| Image | Image |
第三步,下载对应的图标及DESIGN.md文件。

第四步,将DESIGN.md放入项目根目录。文件名不必强制统一,但提示词中需明确指定其路径或名称。

第五步,把下方提示词提供给Claude Code、Codex、Cursor等代理,即可直接运行。

提示词如下:
你现在是一个资深前端架构师+ SaaS 产品设计师。
请基于项目根目录的DESIGN.md 设计规范,生成一个完整的 SaaS 官网首页。
产品名称:KkltCodePilot
定位:AI编程助手(类似 Copilot,但更轻量、更智能)
---
## 🎯 目标
构建一个“可用于演示+ 接近真实商业 SaaS 官网”的高质量页面,而不仅是简单静态页面。
---
## 🧱 技术要求
-使用 React(函数组件 + Hooks)
-使用 TailwindCSS(严格遵守 DESIGN.md 的设计系统)
-组件化拆分(Header / Hero / Features / Pricing 等)
-响应式设计(移动端优先)
-代码结构清晰,便于扩展
-不使用多余依赖(保持轻量)
---
## 🎨 设计风格
-极简(Minimal)
-现代(Modern SaaS)
-科技感(Tech / AI 风格)
-类似:Vercel / Linear / Stripe 风格
-使用 DESIGN.md 中的:
-色板(color tokens)
-字体规范
-间距系统
-圆角 & 阴影规范
---
## 📄 页面结构(必须包含 + 可增强)
### 1. Header(新增)
-Logo(KkltCodePilot)
-导航:Features / Pricing / Docs / GitHub
-CTA:Start Free
---
### 2. Hero
-标题:Ship code 10x faster with AI
-副标题:Generate, fix and optimize code instantly
-按钮:
-Primary:Start Free
-Secondary:View Demo
-可增强:
-右侧代码生成动画 UI(mock)
-渐变背景 or glow 效果
---
### 3. Features
必须包含:
-AI 自动生成代码
-一键修复 Bug
-多语言支持
-GitHub 集成
优化:
-使用卡片布局(grid)
-每个 feature 包含:
-icon
-title
-description
-可增加 hover 动效
---
### 4. Social Proof
-文案:10,000+ developers using CodePilot
-可增强:
-用户头像墙
-Logo(GitHub / Vercel 风格)
-评分(⭐️⭐️⭐️⭐️⭐️)
---
### 5. Demo Section(新增,提升 SaaS 感)
-模拟 AI 编程输入输出界面
-示例:
-输入:“写一个快速排序”
-输出代码块(带高亮)
-让页面更“产品化”
---
### 6. Pricing
套餐:
-Free
-Pro(推荐)
-Team
每个包含:
-价格
-功能列表
-CTA 按钮
增强:
-高亮 Pro
-Toggle(月付 / 年付)
---
### 7. FAQ
-4~6 个常见问题
-使用 Accordion(可展开)
---
### 8. Footer
-产品信息
-GitHub 链接
-Docs
-联系方式
-Copyright
---
## ⚡ 交互增强(重要)
适当增加这些能力,让Demo 更像真实 SaaS:
-Hover 动效(卡片 / 按钮)
-平滑滚动
-按钮点击反馈
-Pricing toggle(状态切换)
-FAQ 折叠动画
---
## 🧩 组件结构建议
请按以下结构拆分:
-components/
-Header.tsx
-Hero.tsx
-Features.tsx
-Demo.tsx
-SocialProof.tsx
-Pricing.tsx
-FAQ.tsx
-Footer.tsx
-pages/
-Home.tsx
---
## 🧪 代码要求
-使用语义化命名
-Tailwind class 简洁清晰
-不要写死颜色(优先使用 DESIGN.md token)
-代码可直接运行
---
## 🎁 输出要求
-输出完整 React 页面代码(可运行)
-包含所有组件
-不要解释,只输出代码
使用建议与注意事项
尽管优势明显,但也需要理性看待。这类样式约束特别适合新项目,比如落地页、产品官网、活动页或Side Project,以及需要快速探索多种视觉方向的情境。
个人知识库搭建最优解:放弃高成本维基,用腾讯ima实现零Token消耗
近来许多人都在尝试搭建个人知识库,我也投入了不少时间。最初的理论指引来自 Karpathy 所倡导的 LLM 维基方法,但真正走完一圈后,最深刻的感触是:本地知识库的建设成本实在太高,仅仅 token 的消耗就足以让你反复心疼。
先从 Karpathy 的维基方法说起。我在另一篇文章里也详细拆解了这个方案的完整步骤,并按照同样的流程一步步实践。
我在知识库中集成了 19 个信息源,单单是把它们编译成维基就耗去了将近 20 分钟。随后我向它提了 10 个问题,查了一下,每个问题平均消耗约 44,000 个 token,10 个问题累计就是 44 万 token。额度几乎瞬间击穿。
这还仅仅基于 19 个来源。如果扩展到 50 个,仅编译阶段就足以让人头疼。况且现在的 token 价格并不友好,免费额度也在持续收紧。回想今年一月份,国内各大平台的 token 还几乎属于不限量供应,如今早已失去了那样的优待,就连 coding plan 都一票难求。
更要紧的是,哪怕付出如此高昂的成本搭建出一个维基,它和你的日常工作始终是脱节的。你可以向它提问,但仅此而已。问完即止,它不会反过来帮你做决策,更不会优化你的工作方法。
知识的静态存储,和将知识内化为己用,有着本质的区别。
基于此,我随后就停下了本地维基的探索。
后来,有人推荐了 NotebookLM。导入 50 个信息源的确眨眼之间就能完成,原因是它采用嵌入模型来做索引,并不需要大模型逐字阅读每个文件。同样针对 10 个问题,每个回答大概一分钟,且都能回溯到具体的引用出处。
NotebookLM 固然出色,可在国内使用总要多绕几个弯。我马上想到,国内市场会不会有相似的替代品?搜寻一圈后,真被我发现了。
它就是 ima,而且不出所料,出自腾讯之手。在借鉴与跟进这件事上,腾讯确实很有自己的风格。
ima 的官网为:https://ima.qq.com/,打开后界面非常简洁,扑面而来的是强烈的 NotebookLM 视觉风格。

我当下就迫不及待地想上手一试,结果发现,上传资料需要使用电脑版,需要先完成下载。嗯,这果然很腾讯。为了验证实际效果,我还是把客户端装好了。

随后,我把最近两周收集到的好东西一一放了进去,包含链接、图片和文档,总计 40 份左右,然后开始等待解析。

大概 5 到 10 分钟后,全部内容解析完毕。接着我再次测试了那 10 个问题。
ima 会从多个来源里将相关信息拼接整合出来,每个回答末尾都清晰标记了出自哪个文件、哪一页,体验和我在 NotebookLM 上的感受几乎一致。更关键的是,提问时还可以搭配 GLM 5.1 模型,并不限制使用次数,放在国内市场这已经是相当有诚意的配置了。