Insights

中国本土化AI搜索利器：一键抓取微博、知乎、B站等8大平台30天热榜，消除信息差

前阵子我在GitHub发现了一个宝藏项目——last30days-skill。

AI世界每个月都在重新发明自己。
这个工具帮你保持领先——不是靠更努力，而是靠更聪明地获取信息。

01 发现一个好东西，但用不了

原版last30days-skill的功能很简单：让AI自动搜索全网最近30天的内容，生成研究报告。

听起来很爽对吧？可试过之后，我马上发现了问题：

它搜的全是英文平台。

Twitter ✅
Reddit ✅
YouTube ✅
Hacker News ✅

我想搜的呢？

微博 ❌
知乎 ❌
B站 ❌
小红书 ❌
公众号 ❌

呃……一个都不支持。

这就尴尬了。我常驻中文互联网，做的是中文内容，日常接触的全是这些平台，你给我一个只能搜英文的工具，有什么用？

那就自己动手改吧。（也多亏了群友们的强烈呼声）

02 本土化，不是翻译一下就行

一开始我想得特简单：把界面翻译成中文，不就本土化了嘛？

后来发现，太天真了。

等我真正开始重构时，才掂出分量。

平台要换

英文平台 → 中国平台

8大平台，全部重写。

API要换

每个平台的接口都不一样：

微博用 OAuth
知乎要 Cookie
B站有公开 API
小红书得用第三方
抖音要 TikHub
公众号要微信 API
百度要百度云
头条有公开接口

光调通这些接口，就花了我整整3天。

中文NLP要加

原版为英文设计的分词和停用词，到中文里基本没法用。

我加上了：

jieba 分词
中文停用词表
中文同义词扩展

现在搜“AI”能认出“人工智能”，搜“公众号”能关联到“微信”。

评分系统要改

原版互动度评分按 Twitter点赞、Reddit upvote 设计，在中文生态里完全不适用。

中国平台的互动指标各有不同：

微博：转发 + 评论 + 点赞
小红书：点赞 + 收藏 + 评论 + 分享
B站：播放 + 弹幕 + 评论 + 投币 + 收藏
知乎：赞同 + 评论 + 收藏
抖音：点赞 + 评论 + 分享 + 播放

权重也得重新校准。

Insights

2026年 Claude Code 国内安装指南：免科学上网，8秒上手

如果你身处国内，希望使用 Claude Code 却又不想折腾科学上网工具，本教程将为你提供一条快捷通道。我们在 Windows 系统（也兼容 macOS 和 Linux）上完成了全流程实测，全程使用国内网络，安装 Claude Code v2.1.138 仅耗时 8 秒，并将后端模型切换为国产 DeepSeek API，彻底摆脱对 Anthropic 官网的依赖。

核心理念非常简单：将 Claude Code 的命令行交互界面安装好，然后用 DeepSeek 等国内大模型驱动对话。这意味着你无需访问 Anthropic 的官方网站，即可顺畅使用所有编码辅助功能。

安装前准备：必备软件与版本环境

本次验证的电脑环境如下，建议你对照自己的机器提前配齐相关工具。

项目	实测值
操作系统	Windows 10/11
Node.js	v22.12.0
npm	10.9.0
Git	2.45.1

1. Node.js（必须安装）
下载地址（国内直接可访）：
👉 https://nodejs.org/zh-cn/
请选择 LTS（长期支持）版本安装，一路默认设置即可。

2. Git（必须安装）
下载地址（国内直接可访）：
👉 https://git-scm.com/downloads
下载后按照默认选项完成安装。务必将 Git 加入环境变量，后面会用到。

3. npm 国内镜像源（建议配置）
打开终端并执行以下指令，将 npm 源切换至 npmmirror.com，提升后续下载速度：

npm config set registry https://registry.npmmirror.com

验证设置是否成功：

npm config get registry

终端若显示 https://registry.npmmirror.com 即表示镜像生效。

Insights

2026年4-5月AI产业热点：GPT-5.5、DeepSeek V4与智能体平台化浪潮

2026年4-5月AI十大关键动态

一、GPT-5.5问世：OpenAI最强模型登场

4月23日，OpenAI正式推出代号为“Spud”的GPT-5.5，被官方称为史上最聪明、最直观的模型。该模型在多项核心评测中大幅领先：

SWE-Bench Pro 得分 58.6%，端到端任务单次通过率显著提升，软件工程能力再上新台阶；
Terminal-Bench 2.0 达到 82.7%，在复杂命令行工作流中取得当前最先进水平；
GDPval 基准测试 84.9%，覆盖 44 个职业领域，展示广泛的知识工作处理能力；
成本仅为同类前沿模型的一半，将高水平智能推向更多用户；
在数学领域取得突破——发现关于 Ramsey 数的新证明，并已在 Lean 中完成形式化验证。

目前 GPT-5.5 已向 Plus、Pro、Business 和 Enterprise 用户全面推送，标志着 OpenAI 又一次实质性的模型代际跨越。

二、DeepSeek V4 发布：百万上下文与开放权重

4月24日，DeepSeek 发布 V4 系列模型，包含 V4-Pro 和 V4-Flash 两个版本。主要突破包括：

100 万 Token 的超长上下文窗口，与 GPT-5.5 持平，大幅拓展了复杂任务的处理能力；
延续开放权重（Open Weights）策略，推动开源生态发展；
编程与推理性能相较前代有显著增强；
API 接口完全兼容 OpenAI 与 Anthropic SDK，迁移成本极低；
被业界评价为“几乎达到前沿水平”，中国模型正以极快速度收敛差距。

紧接着五月初，Kimi K2.6 在编程挑战中直接超越 Claude、GPT-5.5 和 Gemini，进一步印证了中国 AI 模型全面追赶的态势。

三、资本洪流：Google 对 Anthropic 投资 400 亿美元

4月25日，Google 宣布计划向 Anthropic 投入高达 400 亿美元（含现金与算力资源），成为 AI 领域最大规模的单笔投资之一。同一时期：

Insights

2026年4月中国大模型开源突破：性能追平西方旗舰，基准测评全面解析

中国大模型四月开源突破测评

#中国大模型 #开源AI #基准测评

核心速览

2026年4月，月之暗面（Moonshot AI）、DeepSeek、阿里巴巴、智谱AI四家中国AI公司密集发布旗舰级模型。在SWE-Bench、LiveCodeBench、Terminal-Bench等关键编程评测中，这些模型集体追平甚至超越了Claude Opus和GPT系列。开闭源模型之间的性能差距已从2024年底的17个百分点，收窄至如今的1-2个百分点。

关键数字

5家主要模型在四月发布新版本
58.6 Kimi K2.6在SWE-Bench Pro上的得分
93.5 DeepSeek V4 在LiveCodeBench上的得分

四场发布，重塑前沿格局

2026年4月，成为中国大模型产业史上模型发布密度最高的一个月。在不到三十天的时间里，月之暗面带来了Kimi K2.6；DeepSeek推出了V4 Pro与V4 Flash双模型；阿里巴巴发布了覆盖从27B密集模型到千亿参数MoE的Qwen 3.6全系列；智谱AI则亮出了GLM 5.1。若再算上此前不久Anthropic发布的Claude Opus 4.7和OpenAI的GPT-5.5，全球前沿模型的版图在四周内被彻底重塑。

这一现象并非巧合。每年第一季度与第二季度的交接期，向来是AI实验室的传统发布窗口。然而，2026年4月的特殊意义在于：中国模型首次在多个关键维度上，将自身基准分数与西方前沿模型拉入了“统计误差范围内”的区间。

关键背景：2024年底时，开源模型在MMLU等核心基准上还落后闭源模型多达17.5个百分点。但到了2025年12月，这一差距已急剧缩小至0.3个百分点（数据来源：Digital Applied LLM Comparison, 2025年12月）。2026年4月的新一轮发布潮，进一步确认了这一趋势绝非偶然波动，而是一个确立的轨迹。

Kimi K2.6：以Agent Swarm 实现性价比突围

在4月20日发布的Kimi K2.6，是这批模型中在海外开发者社区中引起最大关注的一个。它拥有1万亿总参数（采用MoE架构，320亿活跃参数），支持262K上下文窗口，并采用Modified MIT协议进行开源。

解读其测评数据需要分开来看。在SWE-Bench Pro上，K2.6获得了58.6%的得分，以不到一个百分点的差距落后于Claude Opus 4.7（59.1%），但大幅领先GPT-5（51.2%）（数据来源：RoboRhythms交叉引用，2026年4月）。在用于评估浏览器智能体的BrowseComp基准测试中，K2.6以83.2%的得分反超了Opus 4.7的81.0%。在Terminal-Bench 2.0上，其得分达到66.7%，在国内模型中处于领先地位（Atlas Cloud对比，2026年4月）。

K2.6最核心的差异化能力在于其Agent Swarm特性：能够支持最多300个并行子智能体、高达4000步的协调执行，并可持续运行超过12小时。根据DeepInfra的模型概览介绍，它在多轮工具调用过程中展现出的上下文持续性，相比其前代K2.5提升了一个数量级。

▸ 价格优势明确 — 其API输出价格为每百万token 3.60美元，仅为Claude Opus 4.7（每百万token 25美元）的约七分之一。 ▸ 竞技场表现不及基准 — 在Chatbot Arena的Code Arena WebDev子榜单上，K2.6以1529的Elo分数排在第六名，落后于Opus 4.7（1565分）、Opus 4.6（1548分）和GLM 5.1（1534分）。这表明人类偏好判断与自动化测评之间存在显著差异（数据来源：DeepLearning.ai The Batch 第351期，2026年5月）。 ▸ 实际编码稳定性 — 社区反馈指出，K2.6虽然在长时间编码任务中可以有效运转，但在处理复杂的多文件重构场景时，其可靠性仍不及Opus 4.7。开发者们的普遍共识是：“基准成绩亮眼，但在生产环境中仍需审慎把控”。

Insights

2026年最新：土耳其区半价订阅ChatGPT Plus教程，银联卡自助支付每月仅82元

近期ChatGPT的订阅价格波动较大，源头渠道收紧后市场上出现了各种混乱的定价。其实国内用户完全可以通过一条合法、自主的路径完成ChatGPT Plus订阅：利用土耳其区Apple ID配合iTunes礼品卡，全程用银联储蓄卡就能支付，既不需要外币信用卡，也不必依赖第三方代充。

选择土耳其区并不是为了钻规则空子，而是基于App Store本身的地区定价差异。同一个ChatGPT Plus订阅，美区价格约$20/月（约145元人民币），土区则大约是₺500/月（折合人民币约77元），费用几乎只有一半。

土耳其区Apple ID的注册门槛很低，支持+86手机号验证，整个流程与注册国内Apple ID几乎无异。唯一的区别是需要用礼品卡充值余额完成支付，因为土区App Store无法直接绑定国内银行的银行卡。

前置条件

开始操作前，请确认手边有以下物品：

一部iPhone（iPad也可以，但本教程以iPhone为例）
一个+86开头的国内手机号
一个邮箱地址，推荐Gmail或Outlook
一张银联储蓄卡（日常使用的普通银行卡即可）

整个过程不需要外币卡、不需要科学上网，也不需要任何第三方工具。

关于邮箱的选择：QQ邮箱理论上可行，但有人反馈在注册时收不到验证码，因此稳妥起见建议使用Gmail或Outlook，实际测试中Gmail全程畅通。

注册土耳其区Apple ID

退出当前账号

进入「设置」→ 轻点顶部的头像 → 滑至页面底部 → 选择「退出登录」。iOS在App Store层面只允许同一时间登录一个Apple ID，如果不退出旧账号，新账号登录时会发生冲突，引发各种意外报错。系统可能会询问是否保留本地数据（如通讯录、钥匙串），按照个人习惯选择即可，不影响后续流程。

在Safari无痕模式下注册

这一步容易被忽略，却是影响注册顺利与否的关键。

打开iPhone自带的Safari浏览器，点击底部的标签页按钮，切换到「无痕浏览」模式，然后访问：

https://account.apple.com/account

为何强调无痕模式？普通模式下Safari会携带之前访问过苹果官网留下的Cookie和会话信息，这些残留数据可能干扰新账号的注册，导致页面报错或验证环节出问题。无痕模式相当于一张空白表格，注册过程会更加干净流畅。

填写注册信息

页面加载后显示苹果官方的账号注册表单，逐一填写：

国家或地区：选择「Türkiye」（土耳其）。这一步决定了Apple ID所属区域，之后App Store将展示土耳其区的内容和定价。

出生日期：任选一个能证明已成年的日期（不需要真实日期）。苹果要求账户持有人必须年满18周岁。

电子邮箱：填入准备好的Gmail或Outlook邮箱，这将是新Apple ID的登录账号。

验证方式选择「短信」。苹果会先向邮箱发送一组验证码，再向手机发送一组验证码，按顺序填入即可完成注册。

在App Store首次登录并激活账号

注册完成后，不要在「设置」里登录新账号——这是很多人踩过的坑。在设置中登录Apple ID会触发整机账号迁移，涉及iCloud、通讯录、钥匙串等一系列关联服务，容易引发不必要的麻烦。

正确的做法是只在App Store内登录：打开App Store → 点击右上角头像 → 输入刚才注册的邮箱和密码 → 登录。首次登录时系统会要求再次验证手机号，按常规操作即可。

登录成功后随便搜索一款免费App进行下载，若能正常下载，说明账号已完全激活，注册环节顺利结束。

购买土耳其区iTunes礼品卡

为什么需要礼品卡

土耳其区App Store不支持绑定国内银行发行的Visa、MasterCard或银联卡，因此无法直接在App Store内完成支付。礼品卡相当于预充值介质——先把钱充进Apple ID账户变成里拉余额，再用余额支付订阅费用。

购买平台：MTCGAME

选用的平台是MTCGAME：

Insights

AI WorkBuddy 10个实战Prompt模板，高效解决80%日常工作

最近陆续有朋友私信问我：“这个系列还在更新吗？”答案是：当然，而且会一直做下去。如今 AI WorkBuddy 已经融入我的日常工作，成了离不开的高效伙伴。阅读量并不是我关心的重点，只要这些从真实场景中浓缩出来的经验能给各位的工作带来一点提升，分享本身就有了十足的意义。

今天就把我每天都用得上的 10 个 Prompt 模板摆出来，都是实战打磨后的干货，复制即用。

模板 1：周报轻松写，五分钟就搞定

场景： 每周五那件让人皱眉的事，有了它你就能避开流水账，五分钟收工。

Prompt：

  我是一名[你的职位]，这周主要完成了以下工作：  
  
1. [事项一]  
2. [事项二]  
3. [事项三]  
  
请帮我写一份工作周报，要求：  
  
- 字数控制在 200 字左右  
- 语气正式但不生硬  
- 重点突出完成情况和带来的价值，少说繁琐的过程

体验心得：
你只需要填入几个关键点，AI 给出的周报结构清楚、重点分明。我通常稍微顺两句就能直接发出，周五的摸鱼时间一下子多了起来。

模板 2：文字抛光，改得像资深编辑出手

场景： 写完一段话总感觉哪里拧巴，读起来不顺畅，又不知道从哪儿改起。

Prompt：

  你是一位拥有 10 年经验的资深编辑，擅长把文字改得简洁、有力、且富有画面感。  
  
请帮我修改以下这段文字，要求：  
  
- 严格保留原意，不改变核心观点  
- 删掉废话和冗余词汇，让每句话都有存在的价值  
- 语气要更自然，像是在与人面对面交流  
  
原文：  
[粘贴你的文字]

体验心得：
比简单说一句“帮我改文章”强上十倍。把角色设定为“10 年经验编辑”，并给出具体的打磨方向，AI 就能精准地帮你把文字琢得更专业。

模板 3：长文一眼抓重点，3 秒看透核心

场景： 面对动辄万字的报告或者行业长文，时间又紧，没法细读，只想快速抓到核心。

Prompt：

  请帮我总结以下内容，要求：  
  
- 用 5 句话以内说清楚文章的核心观点  
- 如果文中有关键数据或重要结论，请重点保留  
- 最后加一句分析：这篇内容对[你的职业/业务]最有参考价值的点是什么  
  
内容：  
[粘贴文章全文]

体验心得：
篇幅再长的报告都能秒变精要。最让人惊喜的是最后那句针对性解读——它不是冷冰冰的概括，而是站到我的身份上给出分析，非常贴心。

Insights

AI热点Skill免费开放，让Agent随时随地抓取最新AI动态

就在昨天，我将自己搭建的 AI 热点监控站点——AIHOT，正式向所有人免费开放。短短一天内，访问用户就突破了 10 万 UV，页面浏览量更是超过 60 万 PV，几乎没有任何差评或故障反馈。看到这份数据，我总算长长地松了一口气。

首日反馈中，呼声最高的需求之一是“深色模式太刺眼，能否增加浅色模式”。这确实是我的疏忽，在昨天上午花了一个多小时紧急开发，中午便已上线了浅色主题。

另一大需求则是希望提供 Skill、API 和 RSS 接口。

同时一位关注者也在催促，那必须立即安排上。

毕竟身处 AI 时代，只靠一个 Web 网站的形式实在太笨拙了。于是下班后我接着打开 AI 编码工具，准备把大家提出的功能全部补齐。经过一个通宵的奋战，所有开发工作宣告完成。

今天，我也决定将 AIHOT 的能力开放给所有使用 Agent 的用户，同样是完全免费。

网址在这里：https://aihot.virxact.com

进入 AIHOT 主站后，点击左侧的“Agent 接入”，就可以看到全部选项。

目前开放了三种接入方式：Skill、RSS 和 API，分别对应不同场景的需求。我把自己认为适合对外开放的数据，也都做了最大限度的公开。

核心能力：AIHOT Skill

Skill 是呼声最高的模块，也是 AI 时代最关键的要素之一。Skill 本质上是提供给 Agent 使用的技能包，如果你不太清楚，可以搜索我过往关于 Skills 的详细介绍。你可以在任何支持 Skill 协议的 Agent 上使用，比如 Claude Code、Codex、OpenCode、OpenClaw、Hermers 等。

AIHOT Skill 的核心作用很简单：让你的 Agent 直接读取 AIHOT 网站的部分数据，从而无缝嵌入到你的日常工作流中。

安装方式非常直接，只需一句话，因为我已经把 Skill 部署在了自己的服务器上，无需特殊网络环境：

Insights

AI热点监控工具AIHOT免费开放｜我三年自媒体信息筛选经验全公开

今天，我决定把那个一直陪伴我、帮我追踪AI前沿动态、辅助选题决策的私用网站，正式面向所有人免费开放。

它几乎凝结了我做AI自媒体三年以来，所有关于信息获取的心得与经验。

我把它叫做：AIHOT。

很多朋友可能在过去的文章里，已经见过它的身影。

这个工具的功能说起来非常简单，一段话就能讲清：

它帮你以清晰的时间线，持续监控全球范围内与AI相关的所有信息，再通过我亲手打磨的筛选策略，把那些真正值得关注的内容提炼出来。本质上，它就是对信息海洋做了一次深度降噪，帮我们守住本就稀缺的注意力。

这个网站最初是为公司内部服务的，设计它的本心，就是想保护好我自己的创作精力。坦白说，一开始我完全没打算对外公开。

因为对于一个自媒体人而言，信息的时效性和独特性，有时就是安身立命的根本。

但，或许还是产品人的那股执念在作祟吧。我工作这些年来，一直在画原型、做产品，做了很多年。

我心里始终存着一个产品梦，还是想为这个美好的互联网留下一点自己的痕迹。而我最大的成就感来源，无非就是大家喜欢看我的文章，愿意用我做出的东西。

在每篇文章的末尾，我总会写一句：“谢谢你看我的文章。”

这句话，出自我最爱的一部电影——《头号玩家》。

那是绿洲的缔造者哈利迪在最后消散时，对身为玩家的主角说的告别语，也是我心目中全片最动人的一笔。

我也希望自己创造的东西，能被人看见，被人喜爱，仅此而已。

于是，在四月初的某个深夜，连说服自己的过程都没有，突然就动了念头：不如就开放给大家吧，让更多人可以一起使用。

如果它真的能帮到你们，那我会由衷地感到开心。

网站地址在这里：https://aihot.virxact.com/

因为确实没什么预算去买专门域名，所以用的是公司域名进行开发，可能网址会有点难记，还请见谅。

接下来，我想花一些篇幅，好好介绍一下这个产品，以及在我开发过程中踩过的坑和积累的经验。

先聊聊 AIHOT 这个产品本身。

在我看来，这个时代，很多工作已经不再是单纯的执行——执行部分，AI Agent已经能做得相当出色。现在，更多的工作重心落在了信息处理上，我个人习惯将它拆解为三个环节：

获取信息 → 对信息进行分析 → 基于信息做出决策。

对于内容创作而言，“获取信息”就是从信息汪洋中找到值得关注的线索；“分析”则是基于这些线索，看看有什么选题角度可以切入；而最后的“决策”，就是判断这个选题到底值不值得动笔。

目前，AIHOT主要解决的就是“获取信息”这个环节的问题，这也是我过去最大的痛点。如今的世界早已是信息洪流，尤其是在AI时代，垃圾信息铺天盖地。为了保护注意力，我们必须对信息做严格的筛选。

而且，在AI时代的信息黑暗森林法则之下，信源比信息本身更重要。

所以，第一步，必定是筛选信源。

PS：这里我需要非常坦诚地说明一下，上方的截图是带有内部同事权限的AIHOT界面。公司同事和我们MCN签约博主通过企业飞书认证登录后，能看到更多功能。而大家看到的是下面这个无法登录的公开版本，在标签页上会精简很多，许多底层的策略和信息是不对外展示的。这一点目前确实没办法公开，还望大家理解，真的非常抱歉。

说回信源的部分。

我目前持续监控的信源共有168个，监控手段比较多样：有RSS订阅、有直接解析对方HTML抓取、有调用对方公开的API接口，也有我自己花钱采购的第三方数据接口等等。

每一个信源，都是我亲手逐一筛选过的，秉持着宁缺毋滥和一手信息优先的原则。这个过程大概调优了一个月，真的是靠日积月累慢慢填起来的。

信源等级我自己划分为三类，这和后续的精选策略权重直接挂钩，分别是T1、T1.5和T2。

比如OpenAI的官方博客、Anthropic的工程博客、奥特曼的个人Blog、CMU的博客等等，这些都是最值得关注的官方一手信息，也就是T1。

而这些官方机构的X账号，通常发布的内容比官方网站更多更杂，无用信息的比例也更高，所以我将它们定为T1.5，权重会略低一些。比如OpenAI的官推。

其他所有：技术大佬的个人号（比如奥特曼、达里奥等）、KOL、各类媒体、综合资讯站点，则统一归入T2。

信源挑选完成之后，才是我认为整套系统最复杂的部分——信息处理。

这168个信源其实已经不算多了，但每天抓取回来的信息，仍然有几百条。比如昨天一天，就抓了563条。

你要相信，这么多条目，不可能有人能逐一看完，这就是纯粹的信息爆炸，毫无意义。

而且其中有很多其实跟AI毫无关系。看上面的漏斗图就知道，大约有一半是无关信息。

比如苹果的Newsroom，它大部分内容不过是各种常规公告，不能因为苹果做了Apple Intelligence，就把苹果的所有新闻都当成AI新闻看待。

所以，这就引出了我最核心的模块：精选机制。

如何从已抓取的靠谱信源中，再提炼出真正值得关注的信息，精准推送到我面前——也就是“精选”这个标签页里那些经过甄选的内容。

你会发现，每条被精选的信息，在信息卡片上都被打上了标签和分数，点击标题还可以跳转到原文。

展示出来的效果看起来非常简单对吧？其实二月份刚开始做的时候，我也觉得这事会很简单。

当时我想，这能有多复杂？写个Prompt让大模型判断一下不就完了？让大模型直接给个分数，然后设定一个阈值，过了阈值就值得精选，完事了。

但越做到后面，越发现完全不是这么回事。我想得太天真了，实际情况远比想象中复杂。

这个评分策略，我前后整整迭代了11版。

详细的Prompt、多维评分机制以及最终的数值设计，我确实不方便全盘托出，但整体的架构处理流程，我觉得还是可以和大家分享一下的。

抓取完成后，首先由DeepSeek V3.2进行预筛，判断这条信息是否与AI相关。如果相关，就推送到下一步；如果无关，则直接落库，不再进行后续的评分。

Insights

AI越强，为何更需人类把关？——人机回环（HITL）深度解析

提到AI自动化，很多人的第一反应是——用机器彻底取代人工。
但真正成熟、可落地、可规模化的AI系统，恰恰相反：人非但没有被淘汰，反而被刻意保留，成为系统稳定与进化的关键枢纽。

这便是：Human-in-the-Loop（HITL）——人机回环。

一、什么是人机回环（HITL）？

简单来说，HITL 就是在 AI 的自动化流程中，有意识地嵌入一个“人的决策节点”，而不是追求全自动。

如果把 AI 比作一辆高速飞驰的赛车：

AI 是引擎，提供效率与速度
人类是领航员，负责方向修正
人类也是副驾驶，在需要制动时果断介入

HITL 并不是自动化的退让，而是自动化的增强。

典型 HITL 流程像一个持续生长的闭环：

输入 → AI 判断 → 人类复核/干预 → 最终决策 → 反馈至模型 → 模型变得更加聪明

它并不是单次流水线，而是一条不断迭代的进化通道。

二、系统架构视角：HITL 是闭环控制的必要一环

传统 AI 架构是一条单向通道：

数据 → 模型 → 输出

而 HITL 架构则是一个环形回路：

数据 → 模型判断 → 人工干预 → 决策 → 新数据 → 模型优化

在这个架构当中，人类承担着三重关键角色：

角色	职责
训练者（Trainer）	在模型早期提供高质量标注数据，为其建立认知基线
评审者（Reviewer）	当 AI 置信度不足时，启动人工审核，把关质量
安全监护者（Safety Guard）	在关键风险节点行使最终裁决权，防止灾难性后果

HITL 从不是事后打的“补丁”，而是控制系统里内生的一环。

Insights

ChatGPT广告平台正式上线！AI行业走向注意力与生产力分岔路

今日凌晨，OpenAI再次带来一系列更新。

其中就包括在ChatGPT上线全新的非推理模型GPT‑5.5 Instant，目前已经是ChatGPT的默认模型。

这里对模型不做过多展开，简而言之，它的对话风格更贴近GPT‑4o，幻觉更低，数据准确性更高，回复也更为精炼。同时，它能更好地利用你的各种记忆信息。

此外，紧随GPT‑5.5 Instant发布之后，OpenAI又宣布了一项重磅动作：面向企业主全面开放广告平台。这件事相当有趣，值得好好聊一聊。

你可以把它理解成ChatGPT的广告投放后台。美国的企业主能够直接注册账户、充值、设定预算、选择竞价策略、上传广告素材，一键投放到ChatGPT的对话中，并实时监测数据、实时优化。

其实早在今年1月，ChatGPT的广告测试就已启动，首批测试覆盖美国、澳大利亚、新西兰和加拿大的免费用户，当这些地区的用户使用ChatGPT时，对话中就会出现广告。在用户端，广告的形态是这样的。

当你向ChatGPT提问，AI照常作答之后，回答下方会弹出一个标有「Sponsored」的广告模块。该模块可以展示一个或多个广告主的产品，而在较长的对话中，ChatGPT还会综合上下文，决定是否展示广告以及展示哪些广告。

这样一来，你就不难理解为什么这一次更新中，「记忆」功能成为一个有趣的看点。

毕竟，你的记忆现在可以由AI光明正大地替你保存，这对广告推荐而言精准得可怕，传统推荐算法在它面前反而显得粗糙。

OpenAI始终强调，广告模块独立于回答模块，也就是说，广告不会左右ChatGPT的回答。广告运行在独立的系统上，广告主没有能力干预、排序或改变AI的输出内容。同时，广告主也看不到你的对话记录、聊天历史、记忆或任何个人信息，他们只能拿到汇总的匿名数据，比如总展示量和总点击量。

付费用户以及18岁以下的未成年用户使用ChatGPT时，不会见到广告。但免费用户就需要面对广告了。当然，你也可以在设置中选择关闭广告，但代价是消息额度降低，同时丧失部分功能，如图片生成和Deep Research。也就是说，想继续享受这些功能，就必须接受广告，就像玩小游戏时，用注意力换取金币。

再看投放端，这才是这次最重磅的动作。今年1月，OpenAI宣布在Free和Go用户的对话里测试广告，但当时属于封闭试点，只能通过OpenAI官方或代理商投放，起投门槛25万美元，很多企业主想试水也根本投不进去。如今测试结束，OpenAI的广告主后台正式向所有企业开放，不过首批依然仅限于美国企业。任何美国企业都可以直接去OpenAI Ads注册、自行投放。在官方后台，可以设置预算与出价策略，上传广告素材，创建Campaign和Ad Group，一键启动，然后实时查看效果。起投门槛也从25万美元骤降至5万美元。

目前ChatGPT广告支持按千次展示成本（CPM）和按点击成本（CPC）两种购买选项，CPC建议出价3至5美元每次点击，CPM默认最高出价高达60美元，贵得离谱。要知道，Meta的CPM通常不到20美元，ChatGPT是它的3倍。在OpenAI看来，ChatGPT用户会在平台内提出各种各样的问题，比如买什么笔记本好、去哪里旅游、失眠怎么办、哪种保险划算。因此，用户处于主动决策状态，而不是被动地刷信息流，是真正想要解决某个问题。这种高意图场景下的广告触达，完全值这样的高价。

以上就是OpenAI Ads的全貌。如果说之前只是广告试水，那么今天，ChatGPT可以说正式开门迎客了。未来几年，广告很可能会成为绝大多数线上AI产品的最终宿命。

要理解OpenAI的这项决策，其实并不复杂，直接看一组数据就能明白。ChatGPT目前拥有9亿周活跃用户，其中付费订阅用户约5000万。免费转付费的比例在5%到6%之间，也就是说，每100名ChatGPT用户中，约有94到95人是免费用户。这5000万付费用户也分多个层级：每月20美元的Plus、每月100或200美元的Pro，以及企业版Team和Enterprise。其中，Enterprise用户的12个月留存率高达88%，十分亮眼；但Plus用户的12个月留存率仅为59%，将近一半的人付费一段时间后就离开了。免费用户的流失更为夸张，月流失率达到19%，差不多每五个人中就有一个每月来了又走。

去年9月，OpenAI还联合哈佛大学和杜克大学的研究者发布了一篇名为《How People Use ChatGPT》的论文，分析了大约110万条随机抽样的对话。

可以说，在ChatGPT乃至整个AI生态的用户群中，存在着两种截然不同的人群。一类是付费用户。他们可能是程序员、内容创作者、产品经理、咨询顾问或研究员，将ChatGPT纯粹当作生产力工具，追求更优的模型、更长的上下文、更强大的智能代理能力。这群人每月花费20到200美元，购买的是效率和能力。另一类是免费用户。在ChatGPT生态中，这样的用户超过8亿，他们用ChatGPT搜索信息、提问、写作业、翻译、闲聊，可能每天用一两次，也可能每周才用两三次。他们不需要GPT‑5.5级别的推理能力，也不需要Claude Code那样的编程辅助，他们需要的只是一个好用、免费、能随时提问的东西。必须强调，这两类人群没有高低之分，都极其正常，也都是真实的需求。只不过，这两类需求之间隔着一条巨大的鸿沟。前者渴求的是生产力，后者寻求的是便利。

ChatGPT如今的用户量级，几乎已是全球Top级别，它早已不只是一个产品，而已经成为一个入口。当你的用户越来越趋于全民化，你自然会更加清楚地看到这两种需求之间的鸿沟有多大。于是，引入广告几乎成了必然，OpenAI也选择走上了Google、Meta等公司当年走过的老路。或者换一个更残酷的事实来看，如同很多游戏里我们常调侃的那样：免费玩家实际上是付费玩家的游戏体验。在互联网世界里，情况也差不多。免费用户并非慈善对象，免费用户本身就是商业模式。所以，与其问OpenAI为何要做广告，不如换个问法：一个周活跃用户达9亿的免费入口级产品，有可能不做广告吗？几乎不可能。

特别有趣的是，今年2月，Anthropic发布了一篇题为《Claude is a space to think》的博客。

里面非常明确地表示，Claude永远不会上线广告。他们甚至拍了一支超级碗广告来嘲讽ChatGPT上广告的做法，花费数百万美元，就为在全美观众面前喊出一句：「Ads are coming to AI. But not to Claude.」

配合那位演员的笑容，显得既讽刺又意味深长。当然，Anthropic选择不做广告，绝不是因为他们道德更高尚，这纯粹是由用户结构决定的。Anthropic的核心收入来自企业客户和API调用，付费用户占比远高于ChatGPT，但其消费端用户总量远小于ChatGPT。他们没有8亿免费用户需要养活，因此完全可以说「去你的广告，我们靠订阅和企业合同就足够了」。于是，双方走上了分岔路。OpenAI选择了入口路线，9亿用户，免费优先，广告变现，把盘子做大。Anthropic选择了工具路线，以企业用户为主，订阅为主，不打广告，深挖价值。这其中有什么高下之分吗？我真心觉得没有。一个卖注意力，一个卖生产力，只要仍在互联网体系的框架下构建商业模式，终归要在这两条路里选择一条。

注意力变现的底层逻辑，简单来说只有一句话：让用户在你的产品里停留越久越好。用户待的时间越长，看到的广告就越多，你的收入就越高。Google、Meta、字节跳动，全部遵循这套逻辑。但这套逻辑也会逐渐改变产品本身。拿ChatGPT来说，一旦它的KPI变成用户日均使用时长和广告展示次数，它的产品团队会怎么做，我们大致都能猜得到。那些没能把握好平衡的产品，就像当下的许多搜索引擎，当年也曾干净如白纸，能搜到真材实料，如今却几乎成了广告墙。广告模式的产品，最终都将变成一台注意力捕获器，这没有办法，是宿命。而生产力变现的逻辑则完全相反。它的目标是让用户尽快完成任务，然后离开。

用Codex写代码，用Cowork整理文档，这些工具的价值在于替你节省时间，让你把8小时的活压缩成2小时干完。你完成任务越快，对工具的评价就越高，续费的意愿也就越强。因此，生产力工具的优化方向是效率：更快的响应、更准确的输出、更少的废话。你问一个问题，它给出一个精准的答案，就此结束。它不需要你在界面里多待哪怕一秒钟，因为它的收入来自订阅费，与你的停留时长毫无关系。这两种模式最终会催生出形态截然不同的产品。注意力变现的AI会越来越善于聊天，善于引导对话、推荐话题，让你觉得再聊一会儿也挺有意思。它的回答会越来越多元、越来越丰富，越来越带有所谓的内容属性。而生产力变现的AI会越来越擅长干活，善于理解任务、拆解需求，一次性给你一个能用的结果。它的回答会越来越精准、越来越简洁、越来越有工具属性。如果拿熟悉的例子类比，一个正在变成AI时代的抖音，另一个则在变成AI时代的Office。

当然，我自己也一直在思考，是否存在第三条路。Anthropic在那篇《Claude is a space to think》的博客中，还提到了一个很有意思的词——agentic commerce，即代理式交易。

就是由AI直接替你完成一笔交易，帮你订机票、买东西、预约服务，然后AI从交易中抽取一定佣金。这其实就是如今美团、滴滴、电商这一类平台抽佣模式的翻版。它切入的既不是注意力市场，也不是软件订阅市场，而是交易市场。如果是交易市场，那想象空间就极为广阔了。仅电商一项，全球一年的GMV就高达约7万亿美元，此外还有旅游市场、金融市场、本地生活市场等。AI只要能从中切走哪怕1%的佣金，那也是千亿美元量级的生意。但这条路目前还为时过早。AI代理到底能不能真正可靠地完成一笔交易？能不能处理退款、售后和纠纷？用户是否愿意将下单这件事全权交给AI？这些问题一个都还没有被验证，更不用说所谓的agentic commerce了。这种商业模式要真正跑通，估计还需要一到两年的时间。

因此，我认为当下的现实是，广告仍然是入口型AI产品最走得通的路。不是唯一的路，但确确实实是最成熟的路。代理式交易或许是未来的路，但那个未来还没有到来。所以，看起来只是ChatGPT正式上线了广告主平台这么一件小事，实际上却标志着AI行业的一次大分裂。历史上所有的浏览器、搜索引擎、信息流平台，最终都变成了一件事：一台让你看广告的机器，只不过这台机器做得越来越精美，精美到你忘了它原本是为你的需求服务的。至于那条尚未被走通的第三条路，谁会第一个走出来，说实话我还远远看不清。但我隐约觉得，那才是AI真正让人兴奋的可能性，也是我最想去尝试一下的未来。