Qwen-Robot重磅开源：三个基础模型打通具身智能全链路，自然语言统一动作接口

June 18, 2026

Qwen 团队一次性放出三个机器人基础模型，分别覆盖导航、操作与世界预测，所有动作接口统一采用自然语言。这并非实验室 demo 的简单堆砌，而是从数据标注、训练策略到真实部署的一条完整工程闭环。2B 至 8B 参数规模表现一致提升，Unitree Go2 四足机器人在完全陌生的真实公寓中，仅凭自然语言指令就零样本跑通了跨房间导航。

已开源 / 可验证 / 适合收藏

大语言模型能写诗、能编程、能通过律师资格考试，但如果让它走进厨房拿起一个杯子，它大概率会把杯子碰倒。这不是因为模型不够聪明，而是数字世界与物理世界之间横亘着一道根本性的鸿沟：语言指令和机械动作分属截然不同的表示空间，具身数据高度异质，采集成本极高，简单混合只会引发剧烈冲突。

6 月 15 日，Qwen 团队正式发布 Qwen-Robot，用三个专业基础模型同步作答三个核心问题：机器人如何到达目标位置？如何用手与物体交互？物理世界接下来会发生什么？三个模型既可以独立运行，又都提供语言优先的接口，通用 Qwen 模型便能将它们当作物理世界的工具，按需组合调用。

导航模块：参数化视觉分配策略，一套权重覆盖五类任务

智能体要操作任何物体，首先必须能走到目标跟前。但不同导航任务对历史信息的需求差异悬殊：指令跟随要求保留长程上下文，目标追踪却几乎只依赖最近几帧。固定策略根本无法同时满足。

Qwen-RobotNav 的解决思路，是把视觉分配策略本身变成可调参数。任务模式负责选择导航行为（指令跟随、目标搜索、目标追踪、自动驾驶），四个控制轴——视觉 token 预算、时间衰减、单相机权重和帧采样模式——则共同决定视觉历史的编码方式。模型在 1560 万条样本上训练，以同一套权重统一了五类导航任务。

关键数据：VLN-CE RxR 76.5% SR、HM3Dv2 目标搜索 75.6% SR（仅使用 RGB，却超越了所有依赖深度信息的方法）、EVT-Bench 90.0% 跟踪率、NAVSIM 91.4 PDMS。而且 2B 到 8B 参数规模都展现出稳定提升。

这套参数化接口使 RobotNav 天然适合充当智能体系统的导航模块。上层规划器把长程目标分解为子任务，动态切换任务模式和上下文策略，反复调用同一模型就能组合出复杂行为。在 EXPRESS-Bench 上，性能提升 15.4%，导航步数减少 77%。

真实部署场景更能说明问题。Unitree Go2 四足机器人搭载 NVIDIA Jetson Thor（推理延迟仅 196ms），仅凭自带的低分辨率摄像头，在一套从未见过的公寓中根据逐步下达的语言指令，跨越多个房间执行任务。在展览馆的往返导航测试中，机器人从客厅导航 21.78 米抵达病房，再接到反向指令沿原路返回，全程仅靠语言就实现了双向位置控制。

操作模块：统一 80 维状态-动作空间，让不同形态的机器人共享数据

产线上的工业臂与厨房里的服务臂，抓取动作看起来可能非常相似，但关节配置和动作空间却截然不同。让形态各异的机器人在表示层面实现兼容，是跨本体大规模训练的先决条件。

Qwen-RobotManip 以 Qwen3.5-4B VL 为骨干网络，结合流匹配 DiT 动作头，通过三种机制化解这一难题。统一的 80 维状态-动作表示，在单臂、双臂、灵巧手和移动平台之间共享。相机坐标系下的末端执行器增量位姿动作，使得视觉上相似的运动在不同机器人之间数值上也高度接近，从而屏蔽了形态差异。上下文策略自适应则将执行历史视为隐式的本体标识，实现在线行为校准。

训练数据全部来自开源：11,320 小时机器人数据、1,933 小时第一人称人类视频，以及经过人-机迁移管线合成的、跨 15 个本体的 24,808 小时数据，合计超过 38,100 小时。

一个值得记住的发现是：只有具备统一跨本体表示的模型，才能展现出稳定的对数线性数据规模化曲线。没有这种对齐，增加更多数据只会带来抖动或持平的曲线。对齐，是规模化的前提。

榜单成绩同样亮眼：LIBERO-Plus 91.4%（超越 π0.5 +7.0）、RoboTwin-C2R Hard 69.4%（超越 π0.5 +21.5）、RoboChallenge Table30 v1 通用赛道以 45% SR 排名第一，领先亚军 20%。在 RoboTwin-XE 零样本跨本体迁移中，性能达到先前最优的 3 倍。

世界模型：用自然语言预测物理世界下一步

在机器人领域，真实世界的经验是最稀缺的资源。Qwen-RobotWorld 的破解之道是直接学习世界的状态转移函数：给定当前观测和一个自然语言动作，预测世界接下来将呈现的模样。

一项关键设计选择，就是把所有动作都用自然语言表达。末端执行器位姿、转向指令和导航路标点，全部收束进单一语言接口，覆盖 20 余种本体类型和 500 多个动作类别，在具身世界知识语料库（860 万视频-文本对，逾 2 亿帧）上协同训练。

架构层面，60 层双流 MMDiT 将 Qwen2.5-VL 的语义表示与视频隐变量深度耦合。采用完整的跨模态大语言模型作为动作编码器，而非轻量级文本编码器，带来两个实际好处：内化的世界知识（手臂是刚体、液体会扩散、物体会下落）隐式地将生成约束为物理可信的未来；操作、驾驶、导航三个领域彼此强化，每个领域教会模型不同尺度的物理规律。

EWMBench 总分排名第一（运动保真度超越亚军 33%），DreamGen Bench 也位列第一。在开源模型中，WorldModelBench 第一（牛顿定律、质量守恒、流体动力学等物理规律遵循完美），PBBench 第一。

只需改变单个关键词——对象、目标或动作动词——就能生成相应不同的未来。世界模型真正理解了语言指令的语义，而不只是进行模式匹配。

三大模型协同闭环：从独立能力到整体智能体

三个模型各自独立可用，但由于都采用语言优先的接口，通用 Qwen 模型便可将它们作为物理世界工具，进行灵活组合。内部项目 Qwen-RobotClaw 是一个机器人智能体框架，使得 Qwen VLM 智能体能够调用 Robot Suite 模型，同时管理长程任务所需的上下文与记忆。

已经实现的早期示例包括：开放式任务执行中，Qwen-Omni 观察场景并通过语音随机提出操作任务，RobotManip 即时完成，完全无需预定义的任务列表；具身问答中，智能体在真实建筑内寻找可用卫生间，发现第一个门旁贴着“暂停使用”标牌后重新规划路线，凭视觉证据确认第二个可用，再返回有实证支撑的答案。

Chat2Robot 是一个实验性功能，用户可以在浏览器中直接与机器人对话，输入自然语言指令，观察实时响应。当前部署的策略仅用过 RoboTwin-Clean 数据集的 50 个任务训练，还不够完美，但已经展示出模型一定程度的零样本指令跟随能力。

为什么 Qwen-Robot 值得认真对待

具身智能赛道从来不缺 demo，缺的是从数据、训练到部署的完整工程闭环。Qwen-Robot 这次做了几件尤其值得单独拎出来的事情：用自然语言统一所有动作接口，让不同本体的训练数据可以协同而非冲突；构造了包含 860 万视频-文本对的具身世界知识语料库，其中动作-语言映射框架覆盖 20 余种本体和 500 多个动作类别；训练策略从通用视觉先验渐进式地过渡到具身专业化，操作、驾驶、导航在共享接口下联合训练。

具身智能仍处于起步阶段，距离真正的通用机器人还有很长的路。但这次发布给出的方向足够清晰：用更强的多模态理解桥接物理行动，用更大的数据规模换取泛化能力，用语言作为统一接口让不同领域的物理知识相互强化。Qwen-Robot 是这条路径上一个实实在在的里程碑。