VLA已死,WAM当立:英伟达宣布机器人技术路线的历史性转向
一、一场 20 分钟的"葬礼"
2026 年 4 月,红杉资本 AI Ascent 大会。英伟达机器人方向负责人 Jim Fan(范麟熙)走上台,在短短 20 分钟内连开两场"葬礼"——宣告过去三年统治具身智能的 VLA 范式和被认为"还能吃很多年"的遥操作技术,都已经过时了。
核心论断只有一句话:"VLA 已死,WAM(World Action Models)当立。" 这句话在会后几天内传遍了整个具身智能社区,引发了激烈的争论——有人欢呼新范式,有人质疑这是英伟达的"技术营销"。
二、VLA 为什么必须死?
Jim Fan 认为,VLA 实际上应该叫 LVA(Language-Vision-Action)——绝大多数参数分配给了语言,语言是"一等公民",视觉次之,动作只能"靠边站"。结果是:它擅长编码"知识"和"名词",但在"物理"和"动词"方面严重不足。
更致命的是,VLA 本质上在"背答案"而非"理解物理"。环境稍微变化——光照不同、桌面高度改变、材质替换——性能就断崖式下滑。它需要昂贵的遥操作数据,这限制了规模化扩展。Jim Fan 预测,2026-2027 年内遥操作占比将降到"几乎可以忽略不计"。
三、WAM 新范式:让机器人学会"做梦"
新范式的核心是 让机器在执行动作之前,先在内部模型中预演物理世界的演变。这对应了 LLM 的进化路径:
① 预训练 → 模拟下一个世界状态(≈ LLM 的 next token prediction)
② 动作微调对齐 → 对应 supervised finetuning
③ 强化学习 → 完成最后一公里
英伟达为此推出了两篇奠基性论文:
DreamZero
140 亿参数的自回归扩散模型,同时预测未来画面与动作。经过 38 倍系统优化后,在 GB200 上可实现 7Hz 闭环控制——接近实时。
DreamDojo
用约 44,711 小时的第一视角人类视频训练世界模型,把全网人类视频转化为机器人可理解的"经验"。数据来源不再是昂贵的遥操作,而是 YouTube 上已有的海量视频。
四、数据策略的根本变革
WAM 带来了数据策略的 根本性转变:
| 旧范式 VLA | 新范式 WAM |
| 依赖遥操作数据 | 互联网第一视角人类视频 |
| 需要精准动作标签 | 自监督学习"潜在动作" |
| 与特定机器人强绑定 | 跨机体迁移(仅需30分钟适应) |
五、行业反应:分裂中的共识
并非所有人都同意"VLA 已死"的判断。一种更主流的看法是:VLA 不会死,但不融合世界模型的 VLA 才会死。中科院的 DriveVLA-W0、阿里的 WorldVLA、清华的 IRL-VLA 都在尝试将世界模型能力注入 VLA 架构。
国内已有团队跟进:银河通用、生数科技、智在无界等公司开始布局 WAM 路线。2026 年 5-6 月,行业进入了"VLA vs WAM"的剧烈争论期。
Jim Fan 做出了两个大胆预测:2-3 年内,将出现物理图灵测试——人无法分辨执行任务的是机器人还是人类;到 2040 年,物理 AGI 将到来——机器人自行设计、改进并制造下一代机器人。无论 VLA 是否真正"已死",具身智能的技术路线已经永远改变了。