时间:2026-03-24 17:16
人气:
作者:admin
当前最先进的视觉 - 语言 - 动作(VLA)模型在语义泛化方面表现优异,但在新环境中对未见过的物理运动的泛化能力不足。NVIDIA 团队提出DreamZero,一款基于预训练视频扩散骨干网络的世界行动模型(World Action Model, WAM)。与 VLA 模型不同,WAM 通过预测未来世界状态和动作,以视频作为世界演变的密集表征来学习物理动力学。通过联合建模视频和动作,DreamZero 能从异构机器人数据中高效学习多样技能,无需依赖重复演示。在真实机器人实验中,其在新任务和新环境的泛化能力较最先进的 VLA 模型提升超 2 倍。关键的是,通过模型和系统优化,140 亿参数的自回归视频扩散模型实现了 7Hz 的实时闭环控制。此外,DreamZero 展示了两种跨体化迁移形式:仅利用其他机器人或人类的纯视频演示数据(10-20 分钟),未见过任务的性能相对提升超 42%;更令人惊讶的是,仅需 30 分钟的试玩数据,DreamZero 就能实现对新机器人的少样本体化适配,同时保留零样本泛化能力。

原文链接:World Action Models are Zero-shot Policies
沐小含持续分享前沿算法论文,欢迎关注...
近年来,视觉 - 语言 - 动作模型(VLA) 成为机器人基础模型的主流方向,其将预训练的视觉 - 语言模型(VLM)扩展至电机动作预测,成功继承了语言先验知识,能在多样的语言指令下实现物体操作等任务的语义泛化。例如 VLA 模型可利用 VLM 预训练的网络知识识别目标位置,结合机器人数据中学习的移动技能,完成 “将可乐罐移至指定位置” 等任务。
VLA 模型的泛化能力存在明显短板,尤其在新环境适配和新运动 / 技能学习方面表现受限,核心原因在于:
为解决 VLA 模型的局限性,研究团队提出世界行动模型(WAM),其核心思路是基于预训练的视频扩散模型,联合预测视觉未来状态和动作,将动作学习从 “状态 - 动作模仿” 转向 “逆动力学学习”—— 使电机指令与预测的视觉未来对齐。这种设计让模型能从真实世界中异质的机器人轨迹数据中学习,而非依赖精心设计的重复演示,同时解锁零样本泛化、高效跨体化迁移等能力。DreamZero 作为 WAM 的具体实现,是一款 140 亿参数的机器人基础模型,也是本文的核心研究对象。


VLA 模型分为模块化系统和端到端模型两类:
此外,现有 VLA 模型的环境泛化需为特定任务在数百个多样环境中收集人类遥操作数据,任务泛化则依赖覆盖大量语言条件运动基元,这种方式受限于物理交互和运动的多样性,难以规模化。
视频生成模型已被用于合成机器人轨迹并提取可执行动作,主要方法包括:逆动力学模型、光流作为密集对应、轨迹预测作为高层规划;也有研究通过生成人类视频并利用点跟踪目标训练策略,或合成未见过行为的机器人数据以提升泛化。
将视频和动作生成耦合进行端到端学习的方法,能通过世界建模目标提升多任务性能、样本效率和新场景泛化能力。这类模型被统称为世界行动模型(WAM),区别于视频行动模型(VAM),WAM 强调视频只是世界建模的一种目标,未来可结合触觉感知、力反馈等其他模态。
现有 WAM 虽利用预训练视频扩散模型继承视觉动力学先验,但大多仍聚焦于重复演示数据,未充分探索数据多样性的泛化潜力。而 DreamZero 的创新点在于:系统探索数据多样性和规模、采用更适合长程世界 - 动作建模的自回归架构、实现跨新任务 / 新环境的 sota 泛化、以及 sota 的跨体化迁移(纯视频学习 + 新体化少样本适配)。
基于视频扩散骨干的 WAM 继承了网络规模视频数据的丰富时空先验,融合了端到端 VLA 的无缝梯度流和密集世界建模的规划监督优势。与从 scratch 学习潜空间动力学的潜世界模型、需显式优化的 3D 点云世界模型不同,WAM 直接联合建模视频和动作的分布,视频预测作为隐式视觉规划器引导动作生成,使机器人能力的提升可直接转化为视频生成质量的提升,同时实现 VLA 模型不具备的零样本新任务泛化、异构数据高效学习、纯视频跨体化迁移能力。
DreamZero 的核心是解决将预训练视频扩散模型转化为高效 WAM 的三大挑战:视频 - 动作对齐、架构设计选择、实时推理实现。本节从模型架构、训练目标、推理流程三方面详细解读其设计方案。
DreamZero 的核心任务是基于语言指令、本体感受状态和视觉观测历史,联合预测未来视频帧和动作,形式化表达为:给定语言指令 、本体感受状态
、包含当前和历史的视觉观测
,模型联合预测未来 步的视频
和动作
(>0为固定视野)。
联合预测可分解为自回归视频预测和逆动力学模型(IDM)的动作预测,公式为:

与分离的双模型设计不同,DreamZero 采用单模型端到端训练,通过视频和动作模态的深度融合实现更好的跨模态对齐。
DreamZero 的架构如图 4 所示,以140 亿参数的 Wan2.1-I2V-480P 图像到视频扩散模型为骨干,仅引入少量额外参数(状态编码器、动作编码器 / 解码器),保留视频模型的泛化能力。对于多视角机器人训练数据,将所有视角拼接为单帧,无需修改骨干架构。

模型的输入包含三部分:
上述输入经自回归扩散变换器(DiT) 骨干处理,通过流匹配(Flow Matching)目标,由独立的解码器分别预测未来视频帧和动作块。模型的核心设计是自回归架构,并在推理中结合 KV 缓存和真实观测反馈,解决误差累积问题。
DreamZero 选择自回归(AR)架构而非双向(BD)架构,核心原因是自回归设计更适合闭环机器人控制,优势体现在三方面:
双向架构的局限性在于:需处理固定长度序列,视频下采样会扭曲原生 FPS,导致视频 - 动作对齐失效;当采样点位于任务中间时,语言指令与预测视频帧会出现不匹配,降低语言跟随能力。而自回归架构通过基于视觉上下文的条件生成,规避了这一问题。

DreamZero 采用流匹配(Flow Matching) 作为训练目标,同时为视频和动作模态共享去噪时间步,加速训练初期的收敛,并引入教师强制(Teacher Forcing) 策略 —— 模型基于前一个块的干净上下文,对当前带噪块进行去噪。

给定块索引 和去噪时间步
,原始视频 的带噪潜变量
和归一化动作的带噪变量
定义为干净向量与随机高斯噪声的线性插值:
![]()
其中,
、
为高斯噪声,
、
为干净视频潜变量和归一化动作。前 个块的干净上下文表示为
。
模型 的训练目标是预测视频和动作模态的联合速度,损失函数为:

其中,
为预定义的时间步权重函数,
为联合速度, 为块内潜帧数。训练中采用轨迹级更新和注意力掩码,确保当前带噪块仅能关注前序块的干净上下文(如图 14)。

DreamZero 的推理采用闭环控制策略,核心是KV 缓存和真实观测反馈,消除自回归生成的复合误差,同时实现高效推理。

具体流程(Algorithm 2)分为三步:
异步执行是推理的关键设计:将模型推理与机器人动作执行解耦,推理模块基于最新观测生成下一个动作块时,运动控制器持续执行当前最新的动作块,使机器人具备对环境变化的反应能力。
扩散基 WAM 虽泛化能力强,但迭代去噪过程的计算开销大,难以实现机器人的反应式控制(需数十毫秒内响应)。原始 DreamZero 在单 GPU 上的动作块推理耗时约 5.7 秒,存在三大瓶颈:16 步扩散去噪的迭代计算、140 亿参数 DiT 骨干的计算成本、推理与执行的串行阻塞。
为解决上述问题,DreamZero 从系统级、实现级、模型级三个维度提出优化策略,最终实现 38 倍的推理加速,在 GB200 硬件上达到 150ms 的推理延迟,支持 7Hz 的实时闭环控制,累计加速效果如表 1 所示。

无分类器引导(Classifier-Free Guidance, CFG)是扩散模型的常用技术,需执行条件和无条件两次前向传播,传统方式为串行执行。DreamZero 将两次传播分布在两个独立 GPU 上并行处理,单步扩散的延迟降低 47%,且不影响模型性能。
利用流匹配中速度预测的方向一致性,跟踪连续速度预测的余弦相似度,当超过预定义阈值时,跳过 DiT 前向传播,复用缓存的速度向量。该策略将有效 DiT 步骤从 16 步减少至 4 步,在动作预测质量损失极小的前提下,大幅降低计算量。
将模型推理与机器人动作执行解耦,运动控制器始终执行当前最新的动作块,推理模块始终基于最新的环境观测生成下一个动作块。对于双臂操作机器人,设置48 步动作视野(30Hz 控制频率,单块 1.6 秒),只需将推理延迟控制在 200ms 内,即可实现平滑的反应式控制。
利用torch.compile结合 CUDA Graphs,消除 Python 执行和内核启动的 CPU 开销,通过算子融合降低内存带宽需求。对扩散变换器、调度器、文本 / 图像编码器、VAE 五大组件进行编译,强制静态形状,仅在第一次推理轨迹时因 KV 缓存形状变化重新编译,后续轨迹无需重新编译。
在 Blackwell 架构上采用混合精度量化策略:将模型权重和激活量化至 NVFP4(E2M1),对敏感的 QKV 投影、Softmax 操作保留 FP8(E4M3),对 LayerNorm、RoPE 等非线性操作采用 FP16 累积,在几乎不损失视频和动作生成质量的前提下提升推理速度。
即使经过系统和实现级优化,扩散步骤数仍是推理延迟的主要瓶颈。直接减少扩散步骤会导致视频残差噪声传播至动作预测,降低动作质量。DreamZero-Flash 通过解耦视频和动作的噪声调度,解决训练 - 测试不匹配问题,实现单步扩散的高效推理。
标准 DreamZero 中,视频和动作共享相同的去噪时间步
,训练中模型学习在相同噪声水平下预测视频和动作;而少步 / 单步推理中,动作需从全噪声去噪至干净状态,视频仍处于部分噪声状态,导致训练 - 测试不匹配。
DreamZero-Flash 的解决方案是:将视频时间步偏向高噪声状态,动作时间步保持均匀分布,训练模型从带噪的视觉上下文中预测干净动作,直接匹配少步推理的场景。
视频时间步通过 Beta 分布采样:
,其中
且 α>β(实验中取α=7,β=1),此时
,视频始终处于高噪声状态;动作时间步仍为
,分布如图 5 所示。

为抑制生成动作中的高频噪声,对动作块进行三次插值上采样至 2 倍分辨率,应用Savitzky-Golay 滤波器(窗口大小 21,多项式阶数 3)去噪,再下采样至原始分辨率,确保机器人在真实世界中的动作稳定性。
表 1 展示了各优化策略在 H100 和 GB200 硬件上的累计加速比,所有优化策略均为数学等价变换,除 DiT 缓存和量化外,其余策略无性能损失。在 GB200 上,结合所有优化后实现38 倍加速,推理延迟从 5.7 秒降至 150ms,支持 7Hz 的实时闭环控制。

注:“-” 表示该硬件不支持对应优化;每行包含其上方所有优化策略。
为验证 DreamZero 的核心假设(从多样数据中高效学习、零样本泛化、跨体化迁移),研究团队在双机器人平台(AgiBot G1 移动双臂操作器、Franka 单臂机器人)上开展实验,对比当前 sota 的 VLA 模型,并设计预训练、后训练、跨体化迁移等实验场景,确保实验的公平性和可复现性。
选择两款 sota 的 VLA 模型作为对比:GR00T N1.6和 **π0.5**,为每个基线设置两种初始化策略,保证与 DreamZero 的训练数据和计算预算一致:

DreamZero 的默认评估设置为未见过的环境 + 未见过的物体(预训练 / 后训练数据与评估数据采集于不同地理位置),测试模型的分布外泛化能力,而非训练分布内的插值。任务分为两类:
AgiBot G1 评估:见过的任务选 10 个(分易级取放、难级取放、接触密集操作三类),未见过的任务选 10 个(如熨烫、绘画、解鞋带),每个任务在 4 台机器人上各运行 8 次,共 80 次滚动测试;Franka-DROID 评估:20 个见过的任务、20 个未见过的任务(动词未在 DROID 中出现),每个任务运行 2 次,共 80 次滚动测试,动作位置固定以保证公平性,滚动测试按 0-1.0 评分(基于部分任务完成度)。
为验证 DreamZero 在任务特定数据微调后仍能保留环境泛化能力,在 AgiBot G1 上对三个下游任务进行后训练:
后训练细节:每个任务训练 50K 步,更新策略与预训练一致(冻结文本 / 图像编码器、VAE);评估协议:每个任务运行 10 次滚动测试,基于任务完成进度评分(如衬衫折叠完成的阶段数、水果打包的数量),通过图像叠加减少初始场景的方差。
设计两类跨体化迁移实验,验证 DreamZero 从纯视频数据中学习的能力,以及少样本适配新机器人的能力:
实验围绕 6 个核心研究问题(Q1-Q6)展开,验证 DreamZero 的多样数据学习能力、零样本泛化能力、后训练性能、跨体化迁移能力、DreamZero-Flash 的速度 - 精度权衡,以及模型 / 数据的消融分析,所有实验结果均展示 DreamZero 相较于 VLA 基线的显著优势。
实验结果(图 8):在 AgiBot G1 的见过任务中,DreamZero 的平均任务进度达 62.2%,是最佳预训练 VLA 基线(27.4%)的 2 倍以上;从头训练的 VLA 模型在所有任务类别中任务进度接近 0,即使在简单取放任务中也无法准确与未见过的物体交互。在 Franka-DROID 上也得到一致结果,仅在 DROID 上训练的 DreamZero 优于在多体化数据上预训练的 VLA 基线。
分析:WAM 的联合视频 - 动作设计是核心原因 ——VLA 模型需要大量机器人数据学习直接的 “观测 - 动作” 映射,而 WAM 利用视频生成作为动作预测的强先验,能从异构数据中高效学习,并泛化到未见过的环境。此外,DreamZero 的真实世界执行与生成视频高度对齐,失败主要源于视频生成误差而非动作预测,说明视频骨干的质量直接决定 WAM 性能。

实验结果(图 9):在 AgiBot G1 的 10 个未见过任务中,DreamZero 的平均任务进度达 39.5%,显著优于预训练 VLA 基线(16.3%),从头训练的 VLA 模型任务进度 <1%;在 “从人体模型取帽子”(85.7%)、“握手”(59.2%)等任务上表现优异。在 Franka-DROID 上,DreamZero 的任务进度(49%)和成功率(22.5%)也显著高于 VLA 基线。
分析:预训练 VLA 模型过度拟合训练中的主导行为(如取放),无论指令如何均尝试抓取物体,而 DreamZero 通过视觉规划为未见过的任务生成合理的动作轨迹,视频与动作的强对齐使其能理解新任务的语义和物理要求。此外,DreamZero 在 100 + 额外自由形式任务(如扎破气球、按电梯按钮)上也表现出良好的泛化能力。

实验结果(图 10):DreamZero 在三个后训练任务上的平均任务进度达 79.8%,与预训练 VLA 基线相当或更优,显著优于从头训练的 VLA 基线。即使在未见过的环境中评估,DreamZero 仍能保留环境泛化能力,而 VLA 基线易过拟合训练数据,无法适配物体位置、桌面高度等环境变化。
分析:DreamZero 的自回归架构和世界建模目标,使其在任务特定微调后仍能保留对环境变化的鲁棒性;而 VLA 模型的微调仅学习任务特定的 “观测 - 动作” 映射,缺乏对物理动力学的泛化理解,难以适配分布外的环境。

实验结果(表 2):仅利用10-20 分钟的纯视频数据,机器人到机器人的迁移使 AgiBot G1 未见过任务的平均进度从 38.3% 提升至 55.4%,人类到机器人的迁移提升至 54.3%,相对提升均超 42%。
分析:WAM 的核心优势是无需动作标签,仅从视觉数据中学习任务动力学,而 VLA 模型的跨体化迁移依赖动作标签的对齐。尽管当前成功率仍中等,但少量纯视频数据带来的稳定提升,证明了跨体化视觉经验的有效性,为利用海量人类视频数据提升机器人技能开辟了道路。

Q5:WAM 是否能实现少样本的新体化适配?
实验结果(图 12):在 YAM 机器人的30 分钟试玩数据上后训练后,DreamZero 能在新机器人上保留强的语言跟随能力,并泛化到训练中未见过的物体(南瓜、泰迪熊、杯面等),视频与动作仍保持高度对齐。

分析:少样本适配的有效性源于两方面:1. AgiBot G1 和 YAM 均为双臂平行夹爪机器人,视觉相似性高;2. WAM 从预测视频中学习隐式逆动力学模型,比直接的策略学习更具样本效率 —— 模型仅需学习 “视觉未来 - 动作” 的映射,而物理动力学的理解由预训练视频模型提供。失败仍主要源于视频预测误差,增加后训练数据的任务多样性可进一步提升性能。
实验结果(表 3):标准 DreamZero 从 4 步去噪减少至 1 步,餐桌清理任务的进度从 83% 降至 52%;而 DreamZero-Flash 在1 步去噪下实现 74% 的任务进度,仅比 4 步基线低 9%,同时推理速度提升 2.33 倍(350ms→150ms)。
分析:解耦噪声调度解决了训练 - 测试不匹配问题,使模型能从带噪的视觉上下文中预测干净动作,在速度和精度之间实现更优的权衡,为 DreamZero 的实时部署奠定基础。

6.2 模型与数据消融分析
为分离数据多样性、模型规模、架构对 DreamZero 性能的影响,在 AgiBot G1 的易级取放任务上开展消融实验(训练 50K 步,批次大小 32),结果如表 4 所示。

注:AR = 自回归,BD = 双向;所有实验在易级取放任务上评估。
多样数据使任务进度从 33% 提升至 50%,核心原因是 WAM 的学习核心是逆动力学模型,而鲁棒的逆动力学模型需要多样的 “状态 - 动作” 对应关系,重复数据缺乏这种多样性,无法支撑泛化学习。
140 亿参数的 DreamZero 显著优于 50 亿参数模型(50% vs 21%),小模型易产生视觉幻觉并传播至动作预测;而 VLA 模型即使扩大至 140 亿参数,在多样数据上的任务进度仍为 0,说明仅提升模型容量无法解决 VLA 对多样数据的学习障碍,其核心问题是缺乏时空先验和世界建模能力。
自回归(AR)和双向(BD)架构的任务进度相当,但 AR 模型的动作更平滑(通过整个动作序列的反向传播实现时间一致性),且推理速度快 3-4 倍(KV 缓存的优势),更适合机器人闭环控制。
实验已证明更大的视频骨干模型和更多样的训练数据能提升 WAM 的下游性能,但目前仍缺乏对 WAM 缩放定律的深入研究 —— 模型大小、数据集大小、训练计算量的最优配置仍需探索。研究团队推测,WAM 的缩放定律与 VLA 不同,动作性能与视频生成质量呈直接线性关系,未来需系统研究这一规律。
当前人类到机器人的迁移仅使用 12 分钟的实验室人类视频,而海量的野生人类第一视角视频(如 Ego4D、Action100M)具有比机器人数据更高的多样性。由于 WAM 基于网络规模视频预训练,研究团队推测利用海量野生人类视频能大幅提升机器人的跨体化迁移能力,这是未来的核心研究方向。
当前 DreamZero 在 2 台 GB200 上实现 7Hz 的实时控制,但其计算成本仍高于 VLA 模型(消费级 GPU 上可达 20Hz 以上),核心原因是 140 亿参数的视频扩散模型和迭代去噪过程。未来若能开发出小而强的视频骨干模型,WAM 有望在轻量级边缘设备上作为实时的 System 1 模型部署。
当前 DreamZero 的视觉记忆仅为6 秒,主要作为短程的 System 1 模型,无法完成长程任务。未来需通过两种方式解决:1. 结合 System 2 规划器,构建模块化的双系统架构;2. 扩展 WAM 的上下文窗口,借鉴视频世界模型的长程生成技术,实现连贯的长程视觉规划。
DreamZero 在广度泛化上表现优异,但在亚厘米精度的任务(如钥匙插入、精密装配)上存在局限性,原因是多样预训练策略优先覆盖广度,缺乏高精度操作的密集演示。不过近期研究表明,WAM 在毫米级精度的操作任务上具有潜在优势,未来可通过广度泛化 + 高精度微调的结合,解决广度与精度的权衡问题。
研究团队提出,未来适合 WAM 的机器人体化设计需考虑两个关键因素:
未来的机器人体化设计可能需要在 “机械简单性” 和 “人类相似性” 之间权衡,而类人体化因能利用网络规模的人类视频数据,可能成为下一代机器人的主流方向。
本文的核心贡献可概括为以下五点:
DreamZero 作为世界行动模型(WAM)的首个高性能实现,成功解决了视觉 - 语言 - 动作(VLA)模型在泛化能力和数据效率上的核心局限性。其核心创新是将预训练视频扩散模型与动作预测深度融合,通过联合建模视频和动作,使机器人能从真实世界的异构数据中学习物理动力学,实现零样本泛化、高效跨体化迁移和实时闭环控制。
本文的研究结果表明,视频生成质量是机器人 WAM 性能的核心决定因素,提升视频骨干模型的能力可直接转化为机器人技能的提升。同时,WAM 为利用海量人类视频数据提升机器人能力开辟了新道路,有望成为下一代机器人基础模型的主流架构。未来的研究将围绕 WAM 的缩放定律、长程推理、高精度操作、类人机器人体化设计等方向展开,推动机器人从实验室走向真实世界的通用化应用。