从ChatGPT到ClawToken经济学：AI从模型走向系统，万亿美元赛道的底层逻辑

May 11, 2026

在看过英伟达CEO黄仁勋2026年GTC的主题演讲之后，如果把具体的产品参数暂时搁在一边就会发现，他反反复复在强调一个核心脉络：AI正在从“模型时代”，快速跨入“系统时代”。

模型的能力当然还在持续提升，但行业真正的重心已经悄然转移——AI不再满足于“会说话”，而是开始“会做事”，进而一步步走入真实的物理世界。

计算本身的形态也随之发生了根本性的变化：计算从训练阶段大幅溢出到推理阶段，从单次调用演进为多轮调度，从云端延伸至本地，再进一步渗透到物理世界的每一个角落。

AI，正在从一个“回答问题的工具”，转变为一个“持续运行的系统”。

这是一条再清晰不过的产业路线。

大模型的进化史：一部Token消耗指数级增长史

如果试着把过去三年压缩成一条演进线，大致会呈现出下面这样的图谱。

第一阶段：以ChatGPT为标志 Transformer架构与大规模预训练的成熟，让语言生成终于变得稳定可用。模型能够直接完成表达与归纳，AI第一次真正像人类一样“开口说话”，完成了一次表达能力的巨大跃迁。

第二阶段：DeepSeek R1为代表的变革 这一阶段不单单是推理能力的增强，更叠加了开源模型的大爆发。借助强化学习和推理链，模型开始主动生成中间步骤再推导出结论，计算的重心被显著拉向推理阶段，处理路径大幅延长，Token的消耗也因此急剧攀升。与此同时，开源模型的快速迭代，将强大的推理能力下沉到更广泛的开发者与企业环境里，不仅加速了技术的扩散，也让“可控、可部署”的AI真正变成现实。

第三阶段：Manus、Genspark、Lovable——Agent雏形初现 模型被嵌入到更复杂的系统当中，依靠工具调用、任务拆解以及多轮执行，完成过去难以单次达成的复杂目标。此时，一次用户请求不再仅仅对应一次推理，而是一整串调度链条，计算开始在多个模块之间持续流动。

第四阶段：Claude Code——本地执行能力走向成熟 模型开始直接进入真实的运行环境，可以操作代码、文件以及系统接口。上下文的边界从一段提示词扩展为完整的执行环境，推理结果则能够立即转化为可落地的实际操作，生成能力与执行能力前所未有地融合在一起。

第五阶段：OpenClaw——执行能力的系统化 Agent、本地执行能力和工具生态被进一步整合成持续运行的有机系统，能够支撑长任务、多阶段反馈。计算不再被“请求”所触发，而是以“进程”的形式长期存在，具备连续性与状态保持能力。

这条演进主线有一个贯穿始终的共同特征：每向前迈出一步，Token的消耗就上一个新的台阶。

AI产业的竞争重心，正从单一的“模型竞赛”，悄然转变为全方位的“Token经济”。

推理模型让每一个简单问题都消耗更多的Token；
Agent系统会持续、不间断地调用模型，Token已经变成某种“流量”；
长任务、多步骤交互，使得Token像电力一样形成持续计费的模式。

Token的使用量正在快速攀升，而与此同时，Token的单位成本却在持续走低。每百万Token的价格会越来越便宜，这几乎没有什么悬念。

真正关键的是两条曲线之间的速度差：

我们认为，Token成本下降的速度，很可能赶不上需求膨胀的速度。因此，即便每个Token变得更便宜，每个人消耗掉的Token数量却只会更多。两者叠加的结果是，总体支出非但没有下降，反而在节节攀升。

这正是Token越来越像一种基础资源的根本原因——单位价格长期下降，而总消耗量却屡创新高。

Agentic AI：一场系统级软件革命的开幕

以OpenClaw为代表的Agentic AI之所以会骤然爆火，关键就在于它恰好踩在了软件进化的一条关键拐点上。

传统的软件交互模式是人点击按钮 → 软件执行固定逻辑 → 返回既定结果。

而现在的模式正在被彻底重塑：人只需要下达一条自然语言指令 → Agent自动拆解任务 → 协同调用多个模型、工具和数据源 → 最终交付完整成果。

两者之间最本质的差别在于，软件从一个固化的功能集合，升级为能够自主完成任务的执行者。

正如黄仁勋在演讲中所描绘的，Agent有能力查阅资料、编写代码、制定规划、运行模拟、调用外部API，并且天然具备将复杂问题拆分为多个有序步骤的能力。

它早已超越单一模型的范畴，进化为一个包罗万象的综合系统，涵盖：

多模型（语言、视觉、语音）
多工具（搜索、数据库、软件接口）
多环境（本地、云、多云架构）
持续上下文（长期记忆）

这在实质上是在一步步改写整个软件生态的底层逻辑。过去，编写代码的核心是定义逻辑；而今天，构建系统的核心是编排能力。

因此，你会清晰地看到：

OpenAI：持续深耕工具调用（function calling），最新的GPT-5.4已经原生支持「computer use」，能直接查看屏幕、操控鼠标和键盘。
Anthropic：重点强化Agent的长周期循环，安全运行数天之久，同时推出Claude Computer Use以及多代理协作能力。
开源社区：OpenClaw彻底爆发，短短两个月GitHub星标就飙升至25万以上，成为目前最实用的自托管Agent框架。

而NVIDIA给自己的定位，并不是再做一款Agent产品，而是干脆成为Agent的基础设施层（NeMo、Blueprint、推理系统等）。

物理AI：AI开始理解真实世界的法则

如果说Agent的主战场还局限在“数字世界”之内，那么物理AI则标志着人工智能第一次大规模地进军真实世界。

两者的难度完全不在同一个量级上。语言模型只需要解析语义的对错，而物理AI必须真正洞悉现实世界的物理法则：物体遵守质量守恒、受力会产生反馈、动作天然附带延迟、世界呈现连续不断的状态变化。

换个说法：语言模型解决的是逻辑上的“对不对”，物理AI则必须直面现实中的“能不能做到”。

物理AI需要一种三位一体的结构：

训练——赋予学习能力；
推理——执行实时决策；
模拟——在虚拟环境中验证现实可行性。

三者互为支撑，缺一不可。由于真实世界的可用数据极为稀缺，AI必须先在“虚拟世界”中完成发育和试错。

基于这一判断，NVIDIA布局了多个极具“工程感”的关键项目：

Omniverse：构建高度逼真、可交互的数字孪生世界。
Cosmos：专注训练能够探索现实规律的“世界模型”。
Isaac / 自动驾驶平台：让机器人和自动驾驶系统先在仿真环境中掌握行动逻辑。

这些布局的底层逻辑是先依托庞大算力生成虚拟世界 → 再在其中培育智能 → 最终将成熟的智能部署到真实的物理空间中去。

一旦这条路径被彻底跑通，其深远影响将远超AI行业本身，深度重塑制造业、交通运输、机器人乃至能源等千行百业。

需求远超供给：算力成为整个链条的核心瓶颈

AI需求的膨胀速度，已经远远将算力供给甩在了身后。

推理模型带来Token消耗的暴涨，Agent引发持续不断的系统调用，而物理AI则在上面叠加了“模拟+训练+推理”的三重计算负荷，每一项都堪称巨量。

如今，产业的核心痛点已经从“有没有模型可用”，彻底转向“有没有足够充沛的算力来支撑这些庞大过程的持续运转”。

这也从另一个侧面解释了，为什么NVIDIA的护城河极其难以被单点突破。它的版图早已超越单一的GPU，进化为一整套庞大的体系：

芯片底层（GPU、CPU、DPU）
系统架构（整机、互联网络、超级计算机）
软件生态（CUDA、AI框架、推理系统）
应用平台（Agent、物理AI、数字孪生）

再向前推进一步，便自然延伸出“AI工厂”的概念。算力不再只是被动消耗的资源，而是上升为核心生产力。商业模式也顺势跃升，从单纯兜售“工具”，逐步走向输出完整的“生产能力”。

AI基础设施化：从工具能力走向社会底座

回看整场演讲，相比于单纯的兴奋，更强烈的感受是：AI带来的巨变，已经逼到眼前。

上半场：主攻生成能力，让AI“会说话”；
中场：深耕推理与Agent，让AI“会做事”；
下半场：决胜物理AI，推动AI全面融入真实世界。

与此相伴而生的，是三条同时上扬的增长曲线——Token消耗量、系统复杂度和算力需求。

这三条线共同指向一个事实：AI正在跨越传统“软件能力”的边界，彻底下沉为社会的“基础设施能力”。

这正是未来十年AI产业的增长空间被锚定在“万亿美元”级别的根本逻辑。背后真正的驱动力在于，AI所接管的疆域正在急剧扩张：从单纯的信息流，延伸到复杂的工作流，最后直接触及真实的物理世界本身。

这条演进线路一旦展开，恐怕就再也难以收回。