Tokenmaxxing泡沫:当AI Token消耗成为KPI,古德哈特定律再次应验
硅谷新潮流:Tokenmaxxing现象深度剖析
某位企业主最近养成了在社群中炫耀Token消耗量的习惯。他时常截图展示单日数亿Token的使用记录,并配文"完了,又有新想法了"——时而搭建本体论数据库,时而用Go语言复刻项目。那种自豪感,宛如在朋友圈晒跑步里程,让人哑然失笑。
科技巨头的隐秘竞赛
上周,Meta内部名为"Claudeonomics“的排行榜意外曝光。这个名称颇具讽刺意味——用竞争对手Anthropic的产品命名自家榜单,堪称当代行为艺术。
该榜单覆盖Meta 8.5万名员工,30天累计消耗超60万亿Token。榜首员工月均烧掉2810亿Token,系统还设置了从青铜到翡翠的勋章体系,头衔涵盖"缓存巫师"到"会话不朽者”,顶级称号为"Token传奇"。

颇有些传奇色彩。
刷榜手段层出不穷:有员工让AI Agent空转数小时执行"研究任务"以累积消耗量。消息泄露仅两天,Meta便紧急关闭该榜单,留下一句耐人寻味的公告:“初衷是娱乐,但数据外泄,暂停服务。”
Meta并非孤例。OpenAI内部也有类似机制,曾有员工周消耗达2100亿Token。硅谷将这种现象命名为Tokenmaxxing——Token最大化运动。
行业领袖纷纷表态支持。黄仁勋在GTC大会上宣称,未来每位工程师都应拥有相当于年薪一半的年度Token预算;若50万美元年薪的工程师一年烧不掉25万美元Token,他会"极度不安"。Shopify CEO更直截了当:拒绝使用AI就请离职。据内部人士透露,某些公司已设立每周AI使用量的硬性门槛,未达标者面临淘汰。
一场新型办公室政治运动就此轰轰烈烈展开。
古德哈特定律的幽灵
在管理学领域,这种现象有经典定义——古德哈特定律:
当某个指标沦为考核目标时,它便失去作为指标的价值。
Token消耗量作为过程指标,被用作衡量"AI使用深度"与"生产力提升"的代理变量,从提出到腐败耗时不足一个季度,可能是管理学史上崩坏最快的KPI之一。
沃顿商学院教授Ethan Mollick援引了Steven Kerr 1975年的经典论文《论奖励A行为却期待B结果的愚蠢性》。企业真正追求的是生产力跃升,奖励的却是Token消耗量,二者间的因果关系从未被验证。大家默认"用得多=用得好",便开始搞排名竞赛。
消耗Token何其简单。指令AI"编写一个操作系统,未完成不得停止",并行运行数个实例,一日之内可耗尽任意数量Token。若规则是"消耗多者胜",实习生也能在榜单上碾压Linux之父。
这与用代码行数评价程序员能力有何区别?执行一次npm install就能引入数百万行代码到项目,提交至GitHub后,难道就能证明自己比170万行代码的PostgreSQL项目更厉害?
正规软件公司早已摒弃代码行数考核,这种指标只会让内行笑掉大牙,却恰好迎合了外行管理者的偏好。比喻再贴切些,这无异于用油耗量评判赛车手水平。
隐藏的受益者
深思一个问题:Tokenmaxxing的最大赢家是谁?
答案显而易见:AI服务商与云厂商。
Ramp数据显示,企业Token支出自2025年1月起增长13倍。黄仁勋鼓吹Token预算,本质是在推销自家GPU。Sam Altman畅想"全民基本算力",实则为未来向每个人收取"电费"铺路。
这是一场卖铲人激励众人疯狂购铲的游戏。每个Token都对应真实的GPU算力与电力消耗。空转的Agent不创造价值,却产生实实在在的成本。将Token浪费在无意义任务上,如同打开水龙头看着水流便自我安慰"我在用水"一样荒诞。
这种表演式消费确实放大了AI需求泡沫的信号。CNBC曾专题探讨:若硅谷企业的AI用量中有相当比例源于刷榜,华尔街所见的需求增长数据又有多少是真实的?
尽管如此,这仍是一场真实的生产力革命。Tokenmaxxing虽掺杂水分,但AI Agent的价值创造能力毋庸置疑。泡沫终将破灭,趋势不可逆转。
Token的价值标尺
以每月450美元的MAX订阅为例,可撬动价值约2.2万美元的算力。真正的使用者不会刻意关注Token消耗,而是专注于产出。最近这些Token被用于:收录40余个PG扩展,修复移植老旧扩展,将Pigsty可用扩展数提升至503个。

同时接盘了濒临废弃的开源项目MinIO(千星级别、万级下载量,曾登上HN头条),翻译PG官网并收录500个扩展,整理重要生态项目的文档。这些都是可验证的价值产出,订阅费物超所值。
核心在于:每项工作都有明确、可验证的交付物。扩展收录数量一目了然,翻译质量读者立判,代码能否运行由CI验证,影响力则体现为Star数与PV/UV数据。

文档站点月PV已达6000万(大部分来自Agent请求)
反观Tokenmaxxing选手:让AI"写个数据库"跑整夜生成垃圾代码,或执行"深度研究"空转数小时产出无人阅读的报告。Token计数器狂转,rm -rf也频繁运行。这不是使用AI,而是能源浪费。
带着目标使用工具,还是为使用工具而制造目标? 前者是生产力,后者是行为艺术。
个体与组织的结构性矛盾
道理都懂,为何Tokenmaxxing仍在大厂盛行?
个人使用AI是产出驱动的,产出质量心中有数,无需代理指标,无法自我欺骗。
组织却陷入困境。平庸管理者无法直接感知每个成员的产出质量,必须依赖可量化的中间指标进行考核激励。而这些指标恰恰最易被操纵,这是科层制的结构性缺陷。代码行数、PR数量、会议时长,如今轮到Token消耗量,不过是同一剧本的不同演员。
平心而论,企业从0到1推广AI使用的初衷可以理解,许多人确有惰性需要推动。但一旦演变为榜单与考核,必然走向荒谬。
这种管理无能终将只是过渡阶段。正如正规软件公司迅速抛弃代码行数考核,未来衡量AI使用效果的方式必将回归本质:你用这些Token创造了什么、交付了什么、节省了多少时间与成本。
至于热衷炫耀Token消耗量的朋友,只想送上一句:
别秀油耗了,不如晒晒你到哪了。
