ROBOTICS · 2026-06

VLA已死,WAM当立:英伟达宣布机器人技术路线的历史性转向

NVIDIA具身智能世界模型
阅读时间:约 8 分钟

一、一场 20 分钟的"葬礼"

2026 年 4 月,红杉资本 AI Ascent 大会。英伟达机器人方向负责人 Jim Fan(范麟熙)走上台,在短短 20 分钟内连开两场"葬礼"——宣告过去三年统治具身智能的 VLA 范式和被认为"还能吃很多年"的遥操作技术,都已经过时了。

核心论断只有一句话:"VLA 已死,WAM(World Action Models)当立。" 这句话在会后几天内传遍了整个具身智能社区,引发了激烈的争论——有人欢呼新范式,有人质疑这是英伟达的"技术营销"。

二、VLA 为什么必须死?

Jim Fan 认为,VLA 实际上应该叫 LVA(Language-Vision-Action)——绝大多数参数分配给了语言,语言是"一等公民",视觉次之,动作只能"靠边站"。结果是:它擅长编码"知识"和"名词",但在"物理"和"动词"方面严重不足。

更致命的是,VLA 本质上在"背答案"而非"理解物理"。环境稍微变化——光照不同、桌面高度改变、材质替换——性能就断崖式下滑。它需要昂贵的遥操作数据,这限制了规模化扩展。Jim Fan 预测,2026-2027 年内遥操作占比将降到"几乎可以忽略不计"。

三、WAM 新范式:让机器人学会"做梦"

新范式的核心是 让机器在执行动作之前,先在内部模型中预演物理世界的演变。这对应了 LLM 的进化路径:

① 预训练 → 模拟下一个世界状态(≈ LLM 的 next token prediction)
② 动作微调对齐 → 对应 supervised finetuning
③ 强化学习 → 完成最后一公里

英伟达为此推出了两篇奠基性论文:

DreamZero

140 亿参数的自回归扩散模型,同时预测未来画面与动作。经过 38 倍系统优化后,在 GB200 上可实现 7Hz 闭环控制——接近实时。

DreamDojo

用约 44,711 小时的第一视角人类视频训练世界模型,把全网人类视频转化为机器人可理解的"经验"。数据来源不再是昂贵的遥操作,而是 YouTube 上已有的海量视频。

四、数据策略的根本变革

WAM 带来了数据策略的 根本性转变

旧范式 VLA 新范式 WAM
依赖遥操作数据互联网第一视角人类视频
需要精准动作标签自监督学习"潜在动作"
与特定机器人强绑定跨机体迁移(仅需30分钟适应)

五、行业反应:分裂中的共识

并非所有人都同意"VLA 已死"的判断。一种更主流的看法是:VLA 不会死,但不融合世界模型的 VLA 才会死。中科院的 DriveVLA-W0、阿里的 WorldVLA、清华的 IRL-VLA 都在尝试将世界模型能力注入 VLA 架构。

国内已有团队跟进:银河通用、生数科技、智在无界等公司开始布局 WAM 路线。2026 年 5-6 月,行业进入了"VLA vs WAM"的剧烈争论期。

Jim Fan 做出了两个大胆预测:2-3 年内,将出现物理图灵测试——人无法分辨执行任务的是机器人还是人类;到 2040 年,物理 AGI 将到来——机器人自行设计、改进并制造下一代机器人。无论 VLA 是否真正"已死",具身智能的技术路线已经永远改变了。