卡兹克开源AIHOT:三年迭代11版,用代码替代模型终结AI信息过载
卡兹克,一名扎根AI领域的自媒体人,把自己默默打磨了三年的信息筛选工具完全开源了。这款名为AIHOT的工具,专门帮你盯紧全球AI动态,从信息汪洋里捞出真正值得关注的精品,自动过滤掉冗余噪音,最后呈上一份干净利落的AI日报。

从2月份动手到现在,评分策略整整迭代了11个版本,踩过无数深坑,才沉淀出今天这样的效果。而这背后的设计思路和教训,其实比工具本身更有嚼头。
做AI自媒体最耗神的部分往往不是写文章,而是找选题。而找选题的前提,是得先知道这个世界正在发生什么,这第一步听起来简单,实际执行起来却极其要命。AI领域每天涌出来的信息量太大了。OpenAI发个东西,官网写一遍,官方推特发一遍,山姆·奥特曼转一遍,各路KOL评论一遍,IT之家翻译一遍,同一个事件能刷出七八条重复内容。如果全部吞下去,一天光刷信息就得耗掉两三个小时,而且绝大多数内容要么重复,要么根本跟你没有关系。
卡兹克做这个工具的初衷,正是要解决这层信息筛选的痛苦。他每天都要从信息海里捞出选题,这个过程极其熬人,所以干脆自己动手做个自动化工具。他的底层逻辑非常简单清晰:先把信息来源筛选好,再从这些优质信源里把值得看的内容挑出来。控制输入的质量,把控输出的密度,就这关键两步。

在信源管理上,卡兹克目前持续监控着168个渠道,每一个都是他亲手挑选出来的。采集手段不拘一格,RSS订阅、爬HTML页面、调用API、购买三方数据接口,哪种方式效果好就用哪种。真正有趣的是他为信源划分的三个等级:T1、T1.5、T2。T1是最值得关注的一手官方信息源,比如OpenAI官方博客、Anthropic工程博客、CMU博客这些;T1.5是官方社交媒体账号,像OpenAI的推特,内容比官方网站更杂一些,权重略低;T2则是技术大牛的个人账号、KOL、科技媒体和综合资讯站。这个分级绝不是摆设,在后续打分环节直接左右权重——同一件事,T1源发出的分数天然高于T2源,官方一手信息永远比二手转述更受青睐。
接下来便进入了最折磨人的部分:怎么给每条信息打分。卡兹克最初的想法朴实无华,写一个Prompt让大模型给每条新闻打个分,设个阈值,过线的就是精选内容,听起来简单干脆。

然而第一版跑出来的结果完全没法看。极其硬核的学术论文动不动就飙到90分,他自己点开三秒就读不下去了;山姆·奥特曼转发一篇实习生写的鸡汤推文,模型能给出87分;同一件事被七家媒体报道,七条全都混进了精选列表。于是他开始往Prompt里不断堆规则:大佬转发要降分、重复事件要降分、营销软文直接压到50分以下。规则越叠越多,Prompt一度膨胀到300多行。
到3月份,他还引入了一套人类反馈标注机制,每天和同事一起标记“这条精选对不对”,系统把反馈喂回去持续进化。同时搭配内部评估体系,每次规则升级都拿过去500条新闻重新跑一遍,对比新旧版本到底谁更准。听上去是不是特别标准?模型+人类反馈+自动评估+持续迭代,教科书一般的流程。可跑了一周,他差点崩溃。规则加得越多,模型反而越笨。V7到V8那次迭代甚至出现了负向优化。他又尝试了双维度评分、实体热度感知等方案,结果全部报废。最后不得不全面回滚,推倒重来。

真正的转折点在一个瞬间到来。卡兹克突然想起自己曾经写过一篇文章,标题就叫《能用脚本就别用Agent》。这句话可以说是整个项目最核心的认知。你不能把所有工作都一股脑儿推给模型,让模型既负责打分又计算权重,既打标签又判断是否精选。什么都让模型干,模型就什么都干不好。

于是他彻底重构了整个系统。重构后的设计异常清晰:大模型只做一件事,按照Prompt对每条信息从五个维度分别打分。不打最终总分,不判断是否精选,不承担任何其他职责。Prompt从600多行直接砍到200行,模型的任务被压缩到最纯粹的状态。而打完分之后的所有事情——信源权重计算、类型加权、是否越过精选阈值——全部用代码写成明确的公式,拿着模型给出的五维分数直接套公式计算。一条信息是否进入精选,也不再由模型拍板,而是根据最终质量分,用代码判断有没有达到对应类别的精选阈值。比如OpenAI官网发的东西,60分就已经足够值得看了,而一个博主的转发评测属于二手信息,60分可能只是普通水平,不一定需要展示。这套数值设计是他用量化方式跑了上百个回测反复调出来的,后续要调整也非常简单,改一下公式里的权重或者阈值,几秒钟就能搞定。
还有一个设计令人印象深刻:事件聚类。假设昨天GPT-5.5 Instant发布了,除了OpenAI官方报道,还会有一大批媒体和个人号同时跟进。如果不做聚类,精选页面上同一个事件能刷出十几条。

卡兹克用embedding把语义相近的条目聚到一个事件簇里面,簇里选一条最权威的作为主条目,其他全部折叠收起。官方源永远拥有最高优先级——官网高于官方推特,官方推特高于意见领袖。精选页上同一件事只展示一条,点开就能看到所有相关报道。

配套的还有一项贴心小功能:AI日报。每天北京时间早上8点整,系统自动把过去24小时的精选内容按版块整理好,分为模型发布/更新、产品发布/更新、行业动态、论文研究、技巧与观点五大板块。这个日报完全不需要任何大模型来生成,因为精选、分类、翻译在信息入库的时候就已经全部完成了,日报只需把处理好的条目分桶排序,每天一秒钟搞定。思路跟前面一脉相承:能提前算好的就提前算好,绝不等到展示时再让模型临时抱佛脚。
回过头来看这趟旅程,有几个感触特别深。“能用代码就别用模型”这句话值得每一个做AI产品的人刻在脑门上。卡兹克踩过的最大的坑就是什么东西都交给模型,后来他反过来把能用代码做的全部用代码做,模型只专注于自己最擅长的那一步,效果反而大幅跃升。评分策略的迭代其实不是做加法,而是做减法。从V1到V11,真正帮他走出泥潭的,并不是往Prompt里加入更多规则,而是把Prompt从600行砍到200行,把模型的职责从“什么都干”压缩成“只干一件事”。信源比信息重要得多。与其设计复杂的过滤算法去处理劣质信源,不如一开始就只接入优质信源。168个精挑细选的信源,比10000个杂乱无章的信源要有用得多。另外,做给自己用的东西,往往比做给别人看的更靠谱。AIHOT最初就是做给自己用的,解决的是卡兹克自己最真切的痛点,每一步迭代都有明确具体的反馈,他自己就是用户,好不好用他比谁都清楚。