Qwen-Robot重磅开源:三个基础模型打通具身智能全链路,自然语言统一动作接口

Qwen 团队一次性放出三个机器人基础模型,分别覆盖导航、操作与世界预测,所有动作接口统一采用自然语言。这并非实验室 demo 的简单堆砌,而是从数据标注、训练策略到真实部署的一条完整工程闭环。2B 至 8B 参数规模表现一致提升,Unitree Go2 四足机器人在完全陌生的真实公寓中,仅凭自然语言指令就零样本跑通了跨房间导航。
已开源 / 可验证 / 适合收藏
大语言模型能写诗、能编程、能通过律师资格考试,但如果让它走进厨房拿起一个杯子,它大概率会把杯子碰倒。这不是因为模型不够聪明,而是数字世界与物理世界之间横亘着一道根本性的鸿沟:语言指令和机械动作分属截然不同的表示空间,具身数据高度异质,采集成本极高,简单混合只会引发剧烈冲突。
6 月 15 日,Qwen 团队正式发布 Qwen-Robot,用三个专业基础模型同步作答三个核心问题:机器人如何到达目标位置?如何用手与物体交互?物理世界接下来会发生什么?三个模型既可以独立运行,又都提供语言优先的接口,通用 Qwen 模型便能将它们当作物理世界的工具,按需组合调用。
导航模块:参数化视觉分配策略,一套权重覆盖五类任务
智能体要操作任何物体,首先必须能走到目标跟前。但不同导航任务对历史信息的需求差异悬殊:指令跟随要求保留长程上下文,目标追踪却几乎只依赖最近几帧。固定策略根本无法同时满足。
Qwen-RobotNav 的解决思路,是把视觉分配策略本身变成可调参数。任务模式负责选择导航行为(指令跟随、目标搜索、目标追踪、自动驾驶),四个控制轴——视觉 token 预算、时间衰减、单相机权重和帧采样模式——则共同决定视觉历史的编码方式。模型在 1560 万条样本上训练,以同一套权重统一了五类导航任务。
关键数据:VLN-CE RxR 76.5% SR、HM3Dv2 目标搜索 75.6% SR(仅使用 RGB,却超越了所有依赖深度信息的方法)、EVT-Bench 90.0% 跟踪率、NAVSIM 91.4 PDMS。而且 2B 到 8B 参数规模都展现出稳定提升。
这套参数化接口使 RobotNav 天然适合充当智能体系统的导航模块。上层规划器把长程目标分解为子任务,动态切换任务模式和上下文策略,反复调用同一模型就能组合出复杂行为。在 EXPRESS-Bench 上,性能提升 15.4%,导航步数减少 77%。
真实部署场景更能说明问题。Unitree Go2 四足机器人搭载 NVIDIA Jetson Thor(推理延迟仅 196ms),仅凭自带的低分辨率摄像头,在一套从未见过的公寓中根据逐步下达的语言指令,跨越多个房间执行任务。在展览馆的往返导航测试中,机器人从客厅导航 21.78 米抵达病房,再接到反向指令沿原路返回,全程仅靠语言就实现了双向位置控制。
操作模块:统一 80 维状态-动作空间,让不同形态的机器人共享数据
产线上的工业臂与厨房里的服务臂,抓取动作看起来可能非常相似,但关节配置和动作空间却截然不同。让形态各异的机器人在表示层面实现兼容,是跨本体大规模训练的先决条件。
Qwen-RobotManip 以 Qwen3.5-4B VL 为骨干网络,结合流匹配 DiT 动作头,通过三种机制化解这一难题。统一的 80 维状态-动作表示,在单臂、双臂、灵巧手和移动平台之间共享。相机坐标系下的末端执行器增量位姿动作,使得视觉上相似的运动在不同机器人之间数值上也高度接近,从而屏蔽了形态差异。上下文策略自适应则将执行历史视为隐式的本体标识,实现在线行为校准。
训练数据全部来自开源:11,320 小时机器人数据、1,933 小时第一人称人类视频,以及经过人-机迁移管线合成的、跨 15 个本体的 24,808 小时数据,合计超过 38,100 小时。
一个值得记住的发现是:只有具备统一跨本体表示的模型,才能展现出稳定的对数线性数据规模化曲线。没有这种对齐,增加更多数据只会带来抖动或持平的曲线。对齐,是规模化的前提。
榜单成绩同样亮眼:LIBERO-Plus 91.4%(超越 π0.5 +7.0)、RoboTwin-C2R Hard 69.4%(超越 π0.5 +21.5)、RoboChallenge Table30 v1 通用赛道以 45% SR 排名第一,领先亚军 20%。在 RoboTwin-XE 零样本跨本体迁移中,性能达到先前最优的 3 倍。
世界模型:用自然语言预测物理世界下一步
在机器人领域,真实世界的经验是最稀缺的资源。Qwen-RobotWorld 的破解之道是直接学习世界的状态转移函数:给定当前观测和一个自然语言动作,预测世界接下来将呈现的模样。
一项关键设计选择,就是把所有动作都用自然语言表达。末端执行器位姿、转向指令和导航路标点,全部收束进单一语言接口,覆盖 20 余种本体类型和 500 多个动作类别,在具身世界知识语料库(860 万视频-文本对,逾 2 亿帧)上协同训练。
架构层面,60 层双流 MMDiT 将 Qwen2.5-VL 的语义表示与视频隐变量深度耦合。采用完整的跨模态大语言模型作为动作编码器,而非轻量级文本编码器,带来两个实际好处:内化的世界知识(手臂是刚体、液体会扩散、物体会下落)隐式地将生成约束为物理可信的未来;操作、驾驶、导航三个领域彼此强化,每个领域教会模型不同尺度的物理规律。
EWMBench 总分排名第一(运动保真度超越亚军 33%),DreamGen Bench 也位列第一。在开源模型中,WorldModelBench 第一(牛顿定律、质量守恒、流体动力学等物理规律遵循完美),PBBench 第一。
只需改变单个关键词——对象、目标或动作动词——就能生成相应不同的未来。世界模型真正理解了语言指令的语义,而不只是进行模式匹配。
三大模型协同闭环:从独立能力到整体智能体
三个模型各自独立可用,但由于都采用语言优先的接口,通用 Qwen 模型便可将它们作为物理世界工具,进行灵活组合。内部项目 Qwen-RobotClaw 是一个机器人智能体框架,使得 Qwen VLM 智能体能够调用 Robot Suite 模型,同时管理长程任务所需的上下文与记忆。
已经实现的早期示例包括:开放式任务执行中,Qwen-Omni 观察场景并通过语音随机提出操作任务,RobotManip 即时完成,完全无需预定义的任务列表;具身问答中,智能体在真实建筑内寻找可用卫生间,发现第一个门旁贴着“暂停使用”标牌后重新规划路线,凭视觉证据确认第二个可用,再返回有实证支撑的答案。
Chat2Robot 是一个实验性功能,用户可以在浏览器中直接与机器人对话,输入自然语言指令,观察实时响应。当前部署的策略仅用过 RoboTwin-Clean 数据集的 50 个任务训练,还不够完美,但已经展示出模型一定程度的零样本指令跟随能力。
为什么 Qwen-Robot 值得认真对待
具身智能赛道从来不缺 demo,缺的是从数据、训练到部署的完整工程闭环。Qwen-Robot 这次做了几件尤其值得单独拎出来的事情:用自然语言统一所有动作接口,让不同本体的训练数据可以协同而非冲突;构造了包含 860 万视频-文本对的具身世界知识语料库,其中动作-语言映射框架覆盖 20 余种本体和 500 多个动作类别;训练策略从通用视觉先验渐进式地过渡到具身专业化,操作、驾驶、导航在共享接口下联合训练。
具身智能仍处于起步阶段,距离真正的通用机器人还有很长的路。但这次发布给出的方向足够清晰:用更强的多模态理解桥接物理行动,用更大的数据规模换取泛化能力,用语言作为统一接口让不同领域的物理知识相互强化。Qwen-Robot 是这条路径上一个实实在在的里程碑。