卡兹克开源AIHOT：三年迭代11版，用代码替代模型终结AI信息过载

May 12, 2026

卡兹克，一名扎根AI领域的自媒体人，把自己默默打磨了三年的信息筛选工具完全开源了。这款名为AIHOT的工具，专门帮你盯紧全球AI动态，从信息汪洋里捞出真正值得关注的精品，自动过滤掉冗余噪音，最后呈上一份干净利落的AI日报。

从2月份动手到现在，评分策略整整迭代了11个版本，踩过无数深坑，才沉淀出今天这样的效果。而这背后的设计思路和教训，其实比工具本身更有嚼头。

做AI自媒体最耗神的部分往往不是写文章，而是找选题。而找选题的前提，是得先知道这个世界正在发生什么，这第一步听起来简单，实际执行起来却极其要命。AI领域每天涌出来的信息量太大了。OpenAI发个东西，官网写一遍，官方推特发一遍，山姆·奥特曼转一遍，各路KOL评论一遍，IT之家翻译一遍，同一个事件能刷出七八条重复内容。如果全部吞下去，一天光刷信息就得耗掉两三个小时，而且绝大多数内容要么重复，要么根本跟你没有关系。

卡兹克做这个工具的初衷，正是要解决这层信息筛选的痛苦。他每天都要从信息海里捞出选题，这个过程极其熬人，所以干脆自己动手做个自动化工具。他的底层逻辑非常简单清晰：先把信息来源筛选好，再从这些优质信源里把值得看的内容挑出来。控制输入的质量，把控输出的密度，就这关键两步。

在信源管理上，卡兹克目前持续监控着168个渠道，每一个都是他亲手挑选出来的。采集手段不拘一格，RSS订阅、爬HTML页面、调用API、购买三方数据接口，哪种方式效果好就用哪种。真正有趣的是他为信源划分的三个等级：T1、T1.5、T2。T1是最值得关注的一手官方信息源，比如OpenAI官方博客、Anthropic工程博客、CMU博客这些；T1.5是官方社交媒体账号，像OpenAI的推特，内容比官方网站更杂一些，权重略低；T2则是技术大牛的个人账号、KOL、科技媒体和综合资讯站。这个分级绝不是摆设，在后续打分环节直接左右权重——同一件事，T1源发出的分数天然高于T2源，官方一手信息永远比二手转述更受青睐。

接下来便进入了最折磨人的部分：怎么给每条信息打分。卡兹克最初的想法朴实无华，写一个Prompt让大模型给每条新闻打个分，设个阈值，过线的就是精选内容，听起来简单干脆。

然而第一版跑出来的结果完全没法看。极其硬核的学术论文动不动就飙到90分，他自己点开三秒就读不下去了；山姆·奥特曼转发一篇实习生写的鸡汤推文，模型能给出87分；同一件事被七家媒体报道，七条全都混进了精选列表。于是他开始往Prompt里不断堆规则：大佬转发要降分、重复事件要降分、营销软文直接压到50分以下。规则越叠越多，Prompt一度膨胀到300多行。

到3月份，他还引入了一套人类反馈标注机制，每天和同事一起标记“这条精选对不对”，系统把反馈喂回去持续进化。同时搭配内部评估体系，每次规则升级都拿过去500条新闻重新跑一遍，对比新旧版本到底谁更准。听上去是不是特别标准？模型+人类反馈+自动评估+持续迭代，教科书一般的流程。可跑了一周，他差点崩溃。规则加得越多，模型反而越笨。V7到V8那次迭代甚至出现了负向优化。他又尝试了双维度评分、实体热度感知等方案，结果全部报废。最后不得不全面回滚，推倒重来。

真正的转折点在一个瞬间到来。卡兹克突然想起自己曾经写过一篇文章，标题就叫《能用脚本就别用Agent》。这句话可以说是整个项目最核心的认知。你不能把所有工作都一股脑儿推给模型，让模型既负责打分又计算权重，既打标签又判断是否精选。什么都让模型干，模型就什么都干不好。

于是他彻底重构了整个系统。重构后的设计异常清晰：大模型只做一件事，按照Prompt对每条信息从五个维度分别打分。不打最终总分，不判断是否精选，不承担任何其他职责。Prompt从600多行直接砍到200行，模型的任务被压缩到最纯粹的状态。而打完分之后的所有事情——信源权重计算、类型加权、是否越过精选阈值——全部用代码写成明确的公式，拿着模型给出的五维分数直接套公式计算。一条信息是否进入精选，也不再由模型拍板，而是根据最终质量分，用代码判断有没有达到对应类别的精选阈值。比如OpenAI官网发的东西，60分就已经足够值得看了，而一个博主的转发评测属于二手信息，60分可能只是普通水平，不一定需要展示。这套数值设计是他用量化方式跑了上百个回测反复调出来的，后续要调整也非常简单，改一下公式里的权重或者阈值，几秒钟就能搞定。

还有一个设计令人印象深刻：事件聚类。假设昨天GPT-5.5 Instant发布了，除了OpenAI官方报道，还会有一大批媒体和个人号同时跟进。如果不做聚类，精选页面上同一个事件能刷出十几条。

卡兹克用embedding把语义相近的条目聚到一个事件簇里面，簇里选一条最权威的作为主条目，其他全部折叠收起。官方源永远拥有最高优先级——官网高于官方推特，官方推特高于意见领袖。精选页上同一件事只展示一条，点开就能看到所有相关报道。

配套的还有一项贴心小功能：AI日报。每天北京时间早上8点整，系统自动把过去24小时的精选内容按版块整理好，分为模型发布/更新、产品发布/更新、行业动态、论文研究、技巧与观点五大板块。这个日报完全不需要任何大模型来生成，因为精选、分类、翻译在信息入库的时候就已经全部完成了，日报只需把处理好的条目分桶排序，每天一秒钟搞定。思路跟前面一脉相承：能提前算好的就提前算好，绝不等到展示时再让模型临时抱佛脚。

回过头来看这趟旅程，有几个感触特别深。“能用代码就别用模型”这句话值得每一个做AI产品的人刻在脑门上。卡兹克踩过的最大的坑就是什么东西都交给模型，后来他反过来把能用代码做的全部用代码做，模型只专注于自己最擅长的那一步，效果反而大幅跃升。评分策略的迭代其实不是做加法，而是做减法。从V1到V11，真正帮他走出泥潭的，并不是往Prompt里加入更多规则，而是把Prompt从600行砍到200行，把模型的职责从“什么都干”压缩成“只干一件事”。信源比信息重要得多。与其设计复杂的过滤算法去处理劣质信源，不如一开始就只接入优质信源。168个精挑细选的信源，比10000个杂乱无章的信源要有用得多。另外，做给自己用的东西，往往比做给别人看的更靠谱。AIHOT最初就是做给自己用的，解决的是卡兹克自己最真切的痛点，每一步迭代都有明确具体的反馈，他自己就是用户，好不好用他比谁都清楚。