网站首页 全球最实用的IT互联网站!

人工智能P2P分享Wind搜索发布信息网站地图标签大全

当前位置:诺佳网 > 人工智能 > 自动驾驶 >

26年2月来自北京交大和小米EV的论文“DriveWorld-

时间:2026-03-23 00:15

人气:

作者:admin

标签:

导读:26年2月来自北京交大和小米EV的论文“DriveWorld-VLA: Unified Latent-Space World Modeling with Vision–Language–Action for Autonomous Driving”。端到端(E2E)自动驾驶近年来日益受到关注,人们致力于将视...

26年2月来自北京交大和小米EV的论文“DriveWorld-VLA: Unified Latent-Space World Modeling with Vision–Language–Action for Autonomous Driving”。

端到端(E2E)自动驾驶近年来日益受到关注,人们致力于将视觉-语言-动作(VLA)与世界模型相结合,以增强决策能力和前瞻性想象。然而,由于潜状态共享不足,现有方法无法有效地将未来场景演化和动作规划整合到单一架构中,从而限制了视觉想象对动作决策的影响。为了解决这一局限性,提出DriveWorld-VLA框架。该框架通过在表征层面紧密集成VLA和世界模型,将世界建模和规划统一在一个潜空间中,使VLA规划器能够直接受益于整体场景演化建模,并减少对密集标注监督的依赖。此外,DriveWorld-VLA将世界模型的潜状态作为VLA规划器的核心决策状态,帮助规划器评估候选动作如何影响未来场景演化。 DriveWorld-VLA 通过在潜空间中进行完全的世界建模,支持特征级别的可控、动作条件想象,避免昂贵的像素级展开。

如图所示:(a) 解耦交互:世界模型充当外部模拟器,但其与 VLA 的结构隔离阻碍有效的潜知识转移。(b) 特征共享:尽管共享表征,但这些模型缺乏基于行动的因果推理,这限制它们的反事实想象和长远规划能力。© DriveWorld-VLA:通过将世界模型的潜变量优化为决策变量,实现在共享的潜空间中通过可控想象进行统一的因果“假设”推理。 (d)性能:DriveWorld-VLA 取得 SOTA 成果——在 NAVSIMv1 上达到 91.3 PDMS,在 NAVSIMv2 上达到 86.8 EPDMS,在 nuScenes 上达到 0.16 CR——显著优于 LAW(Li,2024a)、Epona(Zhang,2025)和 HERMES-p(Zhou,2025b)等专用基线。
请添加图片描述

DriveWorld-VLA旨在将VLA模型与世界模型紧密集成到一个统一的架构中,该架构支持多模态推理和前瞻性想象。为了逐步协调表征学习、动作可控性和后果-觉察决策,采用一种三阶段训练范式。每个阶段逐步解锁世界模型的一项关键能力,同时确保与VLA的稳定联合优化。具体而言,训练过程分为三个顺序阶段:VLA与世界模型联合训练、动作可控性微调以及引导式评估与改进。如图展示DriveWorld-VLA的流程:
请添加图片描述

VLA 与 WM 联合训练

DriveWorld-VLA 支持多模态输入,包括多视角图像 I_t、文本提示 T_t、历史动作 A_t−1 和 BEV 表示 B_t。所有模态在输入视觉-语言模型 (VLM) 之前均独立进行token化。图像和文本token化遵循 InternVL (Zhu et al., 2025) 的方法,而 BEV 特征和历史动作则使用专用的token化器。BEV 特征 B_t 由 BEVFormer (Li et al., 2024c) 提取,进行空间展平,并投影到 VLM 嵌入空间作为 BEV token。历史自我动作被序列化为自然语言提示,并与文本指令连接,然后使用与 InternVL 相同的文本token化器进行编码。

Token化后,I_t、T_t、A_t−1 和 B_t 被联合输入到 VLM 中。 VLM 聚合所有模态的信息并生成一系列隐状态。从最终的 VLM 层提取隐藏状态作为共享的潜表示,记为 H_t,它作为未来想象和未来动作预测的公共特征空间。在此阶段,DriveWorld-VLA 经过训练,能够基于共享的潜表示联合执行未来想象和动作预测,从而促进世界模型知识向 VLA 的迁移。

未来想象在 BEV 空间中建模。去噪器以 H_t 和 B_t 作为输入,预测未来的 BEV 状态 B_t+∆t,然后由轻量级分割头 SEG 进行解码,
S_t+∆t = SEG_θ(B_t+∆t), S_t = SEG_θ(B_t′)。

去噪器包含一个历史条件分支和一个未来动作条件分支。在此阶段,仅激活历史条件分支,并强制执行基于历史观测的推理。这个轻量级分支提供密集的未来监督,从而实现预测性表征学习,并能有效地训练图像以适应 BEV token化器。未来动作条件分支遵循生成式范式,用于建模不同动作序列下可控的未来演化。

动作预测被建模为轨迹预测。一个轻量级动作解码器以 H_t、B_t 和 A_t−1 作为输入,输出预测的未来动作 A′_t+∆t:

A′_t+∆t = ACT_θ(H_t, B_t, A_t−1),

其中 ACT 表示动作解码器。

监督学习。未来的 BEV 状态通过解码语义 BEV 地图进行监督,而动作解码器则通过模仿专家动作进行监督。此阶段的总体损失定义为:

L_s_1 = L_seg + L_act,

其中 L_seg 监督语义 BEV 地图的解码,L_act 监督预测的动作。

动作可控性微调

在协同训练过程中,DriveWorld-VLA 并未对未来动作进行条件化,这使其无法基于预期动作来预测结果。因此,DriveWorld-VLA 无法在动作和未来场景生成之间形成闭环推理。理想情况下,DriveWorld-VLA 应该能够感知其动作如何影响环境的未来演化,从而评估动作质量,而不是仅仅依赖历史观测进行推断。

鉴于此局限性,本阶段致力于赋予 DriveWorld-VLA 基于动作进行未来预测的能力。由于 BEV 空间缺乏传感器观测数据,采用一种显式的特征级监督策略来进行 BEV 预测,这与 WoTE (Li et al., 2025c) 和 LAW (Li et al., 2024a) 等先前工作中使用的下游任务监督策略有着本质区别。经过协同训练后,由 ​​BEV token生成器和 VLM 生成的 B_t′ 可以可靠地解码为语义 BEV 图。因此,将此 BEV 潜空间视为预训练的变分表示。给定未来的多视角图像 I_t+δt,重用第一阶段的编码流程来获得相应的真实 (GT) BEV 潜表示 B′_t+∆t。

随后,去噪器的第二分支采用基于 DiT 的架构来学习动作条件流匹配去噪过程,以 BEV 状态 B_t′ 和 GT 未来动作 A_t+∆t 作为条件,如图所示。监督损失记为 L_FM。
请添加图片描述

监督。在动作可控性微调阶段,总损失 L_s_2 仅由前面的损失 L_FM 构成。

未来导向的评估与优化

本阶段旨在基于VLA与世界模型之间高度共享的表征H_t,建立动作预测与未来想象之间的闭环交互。DriveWorld-VLA不仅需要预测动作,还需要有效地想象这些动作所对应的未来结果,并根据想象的未来状态来评估和优化动作。给定B_t、H_t和A_t−1,DriveWorld-VLA首先预测未来动作A′_t+∆t,并通过第一个去噪分支生成未来想象B_t+∆t。随后,预测的动作被用于对第二个去噪分支进行条件化,该分支采用基于欧拉的采样方法生成动作条件化的未来想象B′_t+∆t。

为了评估预测动作的质量,综合考虑动作条件化的未来想象B′_t+∆t与对应的未来BEV表征B_t+∆t之间的一致性。学习的奖励函数 R 为每个预测轨迹分配一个标量分数 rˆ_t+∆t,真实奖励通过在模拟器中执行预测轨迹并进行在线评估获得。

除了轨迹质量评估之外,这种奖励驱动的设计还促进未来想象和动作生成之间的闭环。训练并非对所有多模态预测进行统一监督,而是优先考虑预测奖励更高的轨迹,强化那些能够带来更理想想象结果的轨迹,并实现后果-觉察的动作优化 L’_act。

监督阶段。在此阶段,去噪器和 VLM 被冻结。训练的重点是优化奖励函数和动作头。两个去噪分支生成的未来BEV潜变量被融合,并输入到分割解码器中进行监督式BEV解码,从而得到三个互补的监督信号:

L_s_3 = L′_act + L_seg + L_rew,

其中,L_seg 监督语义BEV图的解码,L′_act 监督由奖励加权的预测动作,L_rew 监督奖励函数 R。


实验中,对于NAVSIM,按顺序拼接左前视图、前视图和右前视图,形成一个256×1024的合成图像作为模型输入。用ResNet-34(He,2016)作为BEV编码器。训练采用 AdamW 优化器,初始学习率为 1e-4,批大小为 16。每个阶段在 8 个 NVIDIA H2O GPU 上训练 20 个 epoch,总训练时间约为 120 小时。对于 nuScenes 的开环评估,6 视图输入图像被调整为 640×384 像素。

采用 Swin-T(Liu,2021)骨干网络,并使用预训练权重进行初始化,然后使用 BEV-Planner(Li,2024d)对 BEV 特征图进行编码。训练采用 AdamW 优化器,初始学习率为 7e-5,批大小为 1。每个阶段在 8 个 NVIDIA H2O GPU 上训练 24 个 epoch,总训练时间约为 93 小时。需要注意的是,为了公平比较,所有基于 nuScenes 的实验均未使用自我状态信息。

温馨提示:以上内容整理于网络,仅供参考,如果对您有帮助,留下您的阅读感言吧!
相关阅读
本类排行
相关标签
本类推荐

CPU | 内存 | 硬盘 | 显卡 | 显示器 | 主板 | 电源 | 键鼠 | 网站地图

Copyright © 2025-2035 诺佳网 版权所有 备案号:赣ICP备2025066733号
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。

关注微信