Tokenmaxxing泡沫：当AI Token消耗成为KPI，古德哈特定律再次应验

May 9, 2026

硅谷新潮流：Tokenmaxxing现象深度剖析

某位企业主最近养成了在社群中炫耀Token消耗量的习惯。他时常截图展示单日数亿Token的使用记录，并配文"完了，又有新想法了"——时而搭建本体论数据库，时而用Go语言复刻项目。那种自豪感，宛如在朋友圈晒跑步里程，让人哑然失笑。

科技巨头的隐秘竞赛

上周，Meta内部名为"Claudeonomics“的排行榜意外曝光。这个名称颇具讽刺意味——用竞争对手Anthropic的产品命名自家榜单，堪称当代行为艺术。

该榜单覆盖Meta 8.5万名员工，30天累计消耗超60万亿Token。榜首员工月均烧掉2810亿Token，系统还设置了从青铜到翡翠的勋章体系，头衔涵盖"缓存巫师"到"会话不朽者”，顶级称号为"Token传奇"。

颇有些传奇色彩。

刷榜手段层出不穷：有员工让AI Agent空转数小时执行"研究任务"以累积消耗量。消息泄露仅两天，Meta便紧急关闭该榜单，留下一句耐人寻味的公告：“初衷是娱乐，但数据外泄，暂停服务。”

Meta并非孤例。OpenAI内部也有类似机制，曾有员工周消耗达2100亿Token。硅谷将这种现象命名为Tokenmaxxing——Token最大化运动。

行业领袖纷纷表态支持。黄仁勋在GTC大会上宣称，未来每位工程师都应拥有相当于年薪一半的年度Token预算；若50万美元年薪的工程师一年烧不掉25万美元Token，他会"极度不安"。Shopify CEO更直截了当：拒绝使用AI就请离职。据内部人士透露，某些公司已设立每周AI使用量的硬性门槛，未达标者面临淘汰。

一场新型办公室政治运动就此轰轰烈烈展开。

古德哈特定律的幽灵

在管理学领域，这种现象有经典定义——古德哈特定律：

当某个指标沦为考核目标时，它便失去作为指标的价值。

Token消耗量作为过程指标，被用作衡量"AI使用深度"与"生产力提升"的代理变量，从提出到腐败耗时不足一个季度，可能是管理学史上崩坏最快的KPI之一。

沃顿商学院教授Ethan Mollick援引了Steven Kerr 1975年的经典论文《论奖励A行为却期待B结果的愚蠢性》。企业真正追求的是生产力跃升，奖励的却是Token消耗量，二者间的因果关系从未被验证。大家默认"用得多=用得好"，便开始搞排名竞赛。

消耗Token何其简单。指令AI"编写一个操作系统，未完成不得停止"，并行运行数个实例，一日之内可耗尽任意数量Token。若规则是"消耗多者胜"，实习生也能在榜单上碾压Linux之父。

这与用代码行数评价程序员能力有何区别？执行一次npm install就能引入数百万行代码到项目，提交至GitHub后，难道就能证明自己比170万行代码的PostgreSQL项目更厉害？

正规软件公司早已摒弃代码行数考核，这种指标只会让内行笑掉大牙，却恰好迎合了外行管理者的偏好。比喻再贴切些，这无异于用油耗量评判赛车手水平。

隐藏的受益者

深思一个问题：Tokenmaxxing的最大赢家是谁？

答案显而易见：AI服务商与云厂商。

Ramp数据显示，企业Token支出自2025年1月起增长13倍。黄仁勋鼓吹Token预算，本质是在推销自家GPU。Sam Altman畅想"全民基本算力"，实则为未来向每个人收取"电费"铺路。

这是一场卖铲人激励众人疯狂购铲的游戏。每个Token都对应真实的GPU算力与电力消耗。空转的Agent不创造价值，却产生实实在在的成本。将Token浪费在无意义任务上，如同打开水龙头看着水流便自我安慰"我在用水"一样荒诞。

这种表演式消费确实放大了AI需求泡沫的信号。CNBC曾专题探讨：若硅谷企业的AI用量中有相当比例源于刷榜，华尔街所见的需求增长数据又有多少是真实的？

尽管如此，这仍是一场真实的生产力革命。Tokenmaxxing虽掺杂水分，但AI Agent的价值创造能力毋庸置疑。泡沫终将破灭，趋势不可逆转。

Token的价值标尺

以每月450美元的MAX订阅为例，可撬动价值约2.2万美元的算力。真正的使用者不会刻意关注Token消耗，而是专注于产出。最近这些Token被用于：收录40余个PG扩展，修复移植老旧扩展，将Pigsty可用扩展数提升至503个。

同时接盘了濒临废弃的开源项目MinIO（千星级别、万级下载量，曾登上HN头条），翻译PG官网并收录500个扩展，整理重要生态项目的文档。这些都是可验证的价值产出，订阅费物超所值。

核心在于：每项工作都有明确、可验证的交付物。扩展收录数量一目了然，翻译质量读者立判，代码能否运行由CI验证，影响力则体现为Star数与PV/UV数据。

文档站点月PV已达6000万（大部分来自Agent请求）

反观Tokenmaxxing选手：让AI"写个数据库"跑整夜生成垃圾代码，或执行"深度研究"空转数小时产出无人阅读的报告。Token计数器狂转，rm -rf也频繁运行。这不是使用AI，而是能源浪费。

带着目标使用工具，还是为使用工具而制造目标？ 前者是生产力，后者是行为艺术。

个体与组织的结构性矛盾

道理都懂，为何Tokenmaxxing仍在大厂盛行？

个人使用AI是产出驱动的，产出质量心中有数，无需代理指标，无法自我欺骗。

组织却陷入困境。平庸管理者无法直接感知每个成员的产出质量，必须依赖可量化的中间指标进行考核激励。而这些指标恰恰最易被操纵，这是科层制的结构性缺陷。代码行数、PR数量、会议时长，如今轮到Token消耗量，不过是同一剧本的不同演员。

平心而论，企业从0到1推广AI使用的初衷可以理解，许多人确有惰性需要推动。但一旦演变为榜单与考核，必然走向荒谬。

这种管理无能终将只是过渡阶段。正如正规软件公司迅速抛弃代码行数考核，未来衡量AI使用效果的方式必将回归本质：你用这些Token创造了什么、交付了什么、节省了多少时间与成本。

至于热衷炫耀Token消耗量的朋友，只想送上一句：

别秀油耗了，不如晒晒你到哪了。