26年2月来自北京交大和小米EV的论文“DriveWorld-

26年2月来自北京交大和小米EV的论文“DriveWorld-VLA: Unified Latent-Space World Modeling with Vision–Language–Action for Autonomous Driving”。

端到端（E2E）自动驾驶近年来日益受到关注，人们致力于将视觉-语言-动作（VLA）与世界模型相结合，以增强决策能力和前瞻性想象。然而，由于潜状态共享不足，现有方法无法有效地将未来场景演化和动作规划整合到单一架构中，从而限制了视觉想象对动作决策的影响。为了解决这一局限性，提出DriveWorld-VLA框架。该框架通过在表征层面紧密集成VLA和世界模型，将世界建模和规划统一在一个潜空间中，使VLA规划器能够直接受益于整体场景演化建模，并减少对密集标注监督的依赖。此外，DriveWorld-VLA将世界模型的潜状态作为VLA规划器的核心决策状态，帮助规划器评估候选动作如何影响未来场景演化。 DriveWorld-VLA 通过在潜空间中进行完全的世界建模，支持特征级别的可控、动作条件想象，避免昂贵的像素级展开。

如图所示：(a) 解耦交互：世界模型充当外部模拟器，但其与 VLA 的结构隔离阻碍有效的潜知识转移。(b) 特征共享：尽管共享表征，但这些模型缺乏基于行动的因果推理，这限制它们的反事实想象和长远规划能力。© DriveWorld-VLA：通过将世界模型的潜变量优化为决策变量，实现在共享的潜空间中通过可控想象进行统一的因果“假设”推理。（d）性能：DriveWorld-VLA 取得 SOTA 成果——在 NAVSIMv1 上达到 91.3 PDMS，在 NAVSIMv2 上达到 86.8 EPDMS，在 nuScenes 上达到 0.16 CR——显著优于 LAW（Li，2024a）、Epona（Zhang，2025）和 HERMES-p（Zhou，2025b）等专用基线。

DriveWorld-VLA旨在将VLA模型与世界模型紧密集成到一个统一的架构中，该架构支持多模态推理和前瞻性想象。为了逐步协调表征学习、动作可控性和后果-觉察决策，采用一种三阶段训练范式。每个阶段逐步解锁世界模型的一项关键能力，同时确保与VLA的稳定联合优化。具体而言，训练过程分为三个顺序阶段：VLA与世界模型联合训练、动作可控性微调以及引导式评估与改进。如图展示DriveWorld-VLA的流程：
请添加图片描述

VLA 与 WM 联合训练

DriveWorld-VLA 支持多模态输入，包括多视角图像 I_t、文本提示 T_t、历史动作 A_t−1 和 BEV 表示 B_t。所有模态在输入视觉-语言模型 (VLM) 之前均独立进行token化。图像和文本token化遵循 InternVL (Zhu et al., 2025) 的方法，而 BEV 特征和历史动作则使用专用的token化器。BEV 特征 B_t 由 BEVFormer (Li et al., 2024c) 提取，进行空间展平，并投影到 VLM 嵌入空间作为 BEV token。历史自我动作被序列化为自然语言提示，并与文本指令连接，然后使用与 InternVL 相同的文本token化器进行编码。

Token化后，I_t、T_t、A_t−1 和 B_t 被联合输入到 VLM 中。 VLM 聚合所有模态的信息并生成一系列隐状态。从最终的 VLM 层提取隐藏状态作为共享的潜表示，记为 H_t，它作为未来想象和未来动作预测的公共特征空间。在此阶段，DriveWorld-VLA 经过训练，能够基于共享的潜表示联合执行未来想象和动作预测，从而促进世界模型知识向 VLA 的迁移。

未来想象在 BEV 空间中建模。去噪器以 H_t 和 B_t 作为输入，预测未来的 BEV 状态 B_t+∆t，然后由轻量级分割头 SEG 进行解码，
S_t+∆t = SEG_θ(B_t+∆t), S_t = SEG_θ(B_t′)。

去噪器包含一个历史条件分支和一个未来动作条件分支。在此阶段，仅激活历史条件分支，并强制执行基于历史观测的推理。这个轻量级分支提供密集的未来监督，从而实现预测性表征学习，并能有效地训练图像以适应 BEV token化器。未来动作条件分支遵循生成式范式，用于建模不同动作序列下可控的未来演化。

动作预测被建模为轨迹预测。一个轻量级动作解码器以 H_t、B_t 和 A_t−1 作为输入，输出预测的未来动作 A′_t+∆t：

A′_t+∆t = ACT_θ(H_t, B_t, A_t−1)，

其中 ACT 表示动作解码器。

监督学习。未来的 BEV 状态通过解码语义 BEV 地图进行监督，而动作解码器则通过模仿专家动作进行监督。此阶段的总体损失定义为：

L_s_1 = L_seg + L_act，

其中 L_seg 监督语义 BEV 地图的解码，L_act 监督预测的动作。

动作可控性微调

在协同训练过程中，DriveWorld-VLA 并未对未来动作进行条件化，这使其无法基于预期动作来预测结果。因此，DriveWorld-VLA 无法在动作和未来场景生成之间形成闭环推理。理想情况下，DriveWorld-VLA 应该能够感知其动作如何影响环境的未来演化，从而评估动作质量，而不是仅仅依赖历史观测进行推断。

鉴于此局限性，本阶段致力于赋予 DriveWorld-VLA 基于动作进行未来预测的能力。由于 BEV 空间缺乏传感器观测数据，采用一种显式的特征级监督策略来进行 BEV 预测，这与 WoTE (Li et al., 2025c) 和 LAW (Li et al., 2024a) 等先前工作中使用的下游任务监督策略有着本质区别。经过协同训练后，由 BEV token生成器和 VLM 生成的 B_t′ 可以可靠地解码为语义 BEV 图。因此，将此 BEV 潜空间视为预训练的变分表示。给定未来的多视角图像 I_t+δt，重用第一阶段的编码流程来获得相应的真实 (GT) BEV 潜表示 B′_t+∆t。

随后，去噪器的第二分支采用基于 DiT 的架构来学习动作条件流匹配去噪过程，以 BEV 状态 B_t′ 和 GT 未来动作 A_t+∆t 作为条件，如图所示。监督损失记为 L_FM。
请添加图片描述

监督。在动作可控性微调阶段，总损失 L_s_2 仅由前面的损失 L_FM 构成。

未来导向的评估与优化

本阶段旨在基于VLA与世界模型之间高度共享的表征H_t，建立动作预测与未来想象之间的闭环交互。DriveWorld-VLA不仅需要预测动作，还需要有效地想象这些动作所对应的未来结果，并根据想象的未来状态来评估和优化动作。给定B_t、H_t和A_t−1，DriveWorld-VLA首先预测未来动作A′_t+∆t，并通过第一个去噪分支生成未来想象B_t+∆t。随后，预测的动作被用于对第二个去噪分支进行条件化，该分支采用基于欧拉的采样方法生成动作条件化的未来想象B′_t+∆t。

为了评估预测动作的质量，综合考虑动作条件化的未来想象B′_t+∆t与对应的未来BEV表征B_t+∆t之间的一致性。学习的奖励函数 R 为每个预测轨迹分配一个标量分数 rˆ_t+∆t，真实奖励通过在模拟器中执行预测轨迹并进行在线评估获得。

除了轨迹质量评估之外，这种奖励驱动的设计还促进未来想象和动作生成之间的闭环。训练并非对所有多模态预测进行统一监督，而是优先考虑预测奖励更高的轨迹，强化那些能够带来更理想想象结果的轨迹，并实现后果-觉察的动作优化 L’_act。

监督阶段。在此阶段，去噪器和 VLM 被冻结。训练的重点是优化奖励函数和动作头。两个去噪分支生成的未来BEV潜变量被融合，并输入到分割解码器中进行监督式BEV解码，从而得到三个互补的监督信号：

L_s_3 = L′_act + L_seg + L_rew，

其中，L_seg 监督语义BEV图的解码，L′_act 监督由奖励加权的预测动作，L_rew 监督奖励函数 R。

实验中，对于NAVSIM，按顺序拼接左前视图、前视图和右前视图，形成一个256×1024的合成图像作为模型输入。用ResNet-34（He，2016）作为BEV编码器。训练采用 AdamW 优化器，初始学习率为 1e-4，批大小为 16。每个阶段在 8 个 NVIDIA H2O GPU 上训练 20 个 epoch，总训练时间约为 120 小时。对于 nuScenes 的开环评估，6 视图输入图像被调整为 640×384 像素。

采用 Swin-T（Liu，2021）骨干网络，并使用预训练权重进行初始化，然后使用 BEV-Planner（Li，2024d）对 BEV 特征图进行编码。训练采用 AdamW 优化器，初始学习率为 7e-5，批大小为 1。每个阶段在 8 个 NVIDIA H2O GPU 上训练 24 个 epoch，总训练时间约为 93 小时。需要注意的是，为了公平比较，所有基于 nuScenes 的实验均未使用自我状态信息。

26年2月来自北京交大和小米EV的论文“DriveWorld-

VLA 与 WM 联合训练

动作可控性微调

未来导向的评估与优化

相关阅读

本类排行

相关标签

本类推荐

栏目热点

猜你喜欢