ROBOTICS · 2026-06

VLA已死，WAM当立：英伟达宣布机器人技术路线的历史性转向

NVIDIA具身智能世界模型

 阅读时间：约 8 分钟 

一、一场 20 分钟的"葬礼"

2026 年 4 月，红杉资本 AI Ascent 大会。英伟达机器人方向负责人 Jim Fan（范麟熙）走上台，在短短 20 分钟内连开两场"葬礼"——宣告过去三年统治具身智能的 VLA 范式和被认为"还能吃很多年"的遥操作技术，都已经过时了。

核心论断只有一句话："VLA 已死，WAM（World Action Models）当立。" 这句话在会后几天内传遍了整个具身智能社区，引发了激烈的争论——有人欢呼新范式，有人质疑这是英伟达的"技术营销"。

Jim Fan 认为，VLA 实际上应该叫 LVA（Language-Vision-Action）——绝大多数参数分配给了语言，语言是"一等公民"，视觉次之，动作只能"靠边站"。结果是：它擅长编码"知识"和"名词"，但在"物理"和"动词"方面严重不足。

更致命的是，VLA 本质上在"背答案"而非"理解物理"。环境稍微变化——光照不同、桌面高度改变、材质替换——性能就断崖式下滑。它需要昂贵的遥操作数据，这限制了规模化扩展。Jim Fan 预测，2026-2027 年内遥操作占比将降到"几乎可以忽略不计"。

新范式的核心是 让机器在执行动作之前，先在内部模型中预演物理世界的演变。这对应了 LLM 的进化路径：

① 预训练 → 模拟下一个世界状态（≈ LLM 的 next token prediction）
② 动作微调对齐 → 对应 supervised finetuning
③ 强化学习 → 完成最后一公里

英伟达为此推出了两篇奠基性论文：

140 亿参数的自回归扩散模型，同时预测未来画面与动作。经过 38 倍系统优化后，在 GB200 上可实现 7Hz 闭环控制——接近实时。

用约 44,711 小时的第一视角人类视频训练世界模型，把全网人类视频转化为机器人可理解的"经验"。数据来源不再是昂贵的遥操作，而是 YouTube 上已有的海量视频。

WAM 带来了数据策略的 根本性转变：

并非所有人都同意"VLA 已死"的判断。一种更主流的看法是：VLA 不会死，但不融合世界模型的 VLA 才会死。中科院的 DriveVLA-W0、阿里的 WorldVLA、清华的 IRL-VLA 都在尝试将世界模型能力注入 VLA 架构。

国内已有团队跟进：银河通用、生数科技、智在无界等公司开始布局 WAM 路线。2026 年 5-6 月，行业进入了"VLA vs WAM"的剧烈争论期。

Jim Fan 做出了两个大胆预测：2-3 年内，将出现物理图灵测试——人无法分辨执行任务的是机器人还是人类；到 2040 年，物理 AGI 将到来——机器人自行设计、改进并制造下一代机器人。无论 VLA 是否真正"已死"，具身智能的技术路线已经永远改变了。