时间:2026-03-24 00:15
人气:
作者:admin
26年3月来自清华、小米汽车和澳门大学的论文“LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving”。
视觉-语言-动作(VLA)模型通过统一感知和规划,彻底革新自动驾驶技术,但其对显式文本思维链(CoT)的依赖导致语义-感知的解耦和感知-符号的冲突。近年来,潜推理的兴起,试图通过在连续的隐空间中进行思考来绕过这些瓶颈。然而,如果没有显式的中间约束,标准的潜CoT通常表现为一种与物理无关的表示。为了解决这个问题,提出潜时空VLA(LaST-VLA)框架,该框架将推理范式从离散的符号处理转变为基于物理的潜时空CoT。通过实现双特征对齐机制,将来自3D基础模型的几何约束,和来自世界模型的动态预测,直接蒸馏到潜空间中。结合渐进式SFT训练策略(从特征对齐过渡到轨迹生成),并通过强化学习和组相对策略优化(GRPO)进行优化,以确保安全性和规则合规性。
如图所示VLA范式比较:(a) 直接VLA效率高,但缺乏推理能力。(b) 显式文本CoT可解释,但延迟高且容易出现幻觉。© 朴素潜CoT(无监督)效率高,但不稳定(模型崩溃)。(d) 时空潜CoT(监督)将潜特征与物理先验对齐,实现效率、稳定性和接地性。
该方法采用渐进式训练策略,以确保模型能够有效地内化这些基于现实的推理能力。如下图右上角所示,第一阶段的监督学习旨在赋予模型时空推理能力,而第二阶段则侧重于使模型学习特定的规划任务。此外,还采用强化学习(RL)来增强特定的驾驶决策能力,如下图右下角所示。经过监督学习后,模型具备时空理解和规划能力。随后,基于驾驶安全性和舒适性等指标,利用强化学习对模型进行优化,最终使其具备卓越的驾驶技能。
该提出的架构旨在通过潜时空CoT机制弥合感知与规划之间的差距。如上图左所示:整个流程包含三个核心组件:(1)潜在时空CoT,(2)渐进式两阶段SFT策略,以及(3)通过GRPO进行潜在接地轨迹细化。
为了教会模型理解三维几何和世界动态,传统方法通常依赖于显式的重建目标,例如预测密集的深度图或未来的视频帧。然而,这些方法存在计算开销高和信息冗余的问题,因为它们迫使模型关注无关的纹理细节,而非关键的物理状态。如上图左所示,在训练过程中引入外部基础模型作为特征-级教师,将其结构化知识提炼到由 VLM 推理过程生成的连续潜token中。这种策略有助于模型有效地理解物理,而无需进行像素级生成。
具体来说,推理过程始于视觉编码。给定输入图像 I_t,使用视觉编码器 V 提取块级视觉嵌入 E_img = V(I_t)。这些视觉特征与语言指令的嵌入 E_L 连接起来,形成多模态输入序列。 VLM π_θ 自回归生成隐状态。令 h_k 表示第 k 步最后一层的输出。潜CoT序列H推导如下:
H = {h_k} = π_θ(E_img, E_L),
其中K为推理链的长度。该序列被严格划分为动态流(Hdyn)和几何流(Hgeo),以便使用适配器进行两种专门的物理对齐。为了防止适配器仅关注原始像素模式而忽略对齐过程,对视觉嵌入应用随机二值掩码M,得到Ẽ_img = E_img ⊙ M。这些掩码特征和连续的CoT隐状态作为适配器的输入,用于使用不同的先验进行对齐。
动态适配器(Φ_dyn)。如下图(a)所示,该适配器将序列隐状态与视频世界模型(Cosmos (Agarwal et al., 2025))的表示空间连接起来。与标准语言token的静态特性不同,世界模型的潜空间固有地编码时间动态演化。因此,通过将线性token序列投影到该动态流形上,Φ_dyn 有效地捕捉交通参与者的未来运动先验和连续的环境变化。
几何适配器 (Φ_geo)。如上图 (b) 所示,该适配器将空间隐状态与 VGGT 3D 基础模型的密集特征空间对齐(Wang,2025a)。通过将语言潜状态 Hgeo 与原始视觉嵌入 E ̃_img 融合,它直接在潜空间中恢复度量精确的空间先验,例如场景深度和占用结构。整体转换过程正式定义为:
pgeo = Φ_geo(Hgeo, E ̃_img), pdyn = Φ_dyn(Hdyn, E ̃_img),
潜思维链 (CoT) 充当隐推理桥梁,编码三维空间中世界的外观及其变化方式,同时保持完全可微性并与下游轨迹输出空间对齐。
潜条件规划。最后,将落地潜思维链整合到轨迹生成过程中。在潜推理阶段之后,策略根据以下物理推理自动回归地预测未来路径点(以文本token表示):
a_t ∼ π_θ(a_t | Hdyn, Hgeo, Q_t)。
这确保最终的规划决策明确地由潜空间中提炼出的时空理解驱动。
该方法在训练过程中引入外部基础模型作为特征教师,并将它们的结构化知识提炼到 VLM 推理过程中生成的连续潜token中。为了有效地实现这一点,提出一种渐进式两阶段监督微调策略,该策略将复杂的目标解耦为学习思考和学习行动。
统一的优化目标。首先为两个阶段制定统一的训练目标。为了使潜token与物理现实相联系,采用从冻结基础模型中提取特征的方法,将源自 Cosmos 模型的动态特征记为 F_Cosmos,将源自 VGGT 聚合器的几何特征记为 F_VGGT。对于动态表示,指定三组潜tokens,以与 F_Cosmos 的时间特征相匹配。这些tokens编码跨越不同时间尺度的动态变化,捕捉短期、中期和长期运动。同时,分配一组不同的潜tokens与 F_VGGT 对齐,以捕捉静态几何约束。对齐损失,计算为适配器投影特征 p 与这些教师目标之间的均方误差 (MSE),即L_WM。
总SFT损失把轨迹预测误差结合以下的物理对准项:
L_total = λ_action L_CE + λ_WM L_WM + λ_3D L_3D,
其中 L_CE 表示动作生成的交叉熵损失,λ 是跨阶段动态调整的平衡系数。
第一阶段:物理-觉察对齐。在初始阶段,优先学习物理知识而非生成轨迹。将损失权重设置为 λ_WM = λ_3D = 1.0 ≫ λ_action = 0.01。这强制潜 CoTH 与教师模型的几何和动态表示严格对齐。为了确保规划器依赖于这种推理,应用结构化因果掩码:(1)潜相互掩码:屏蔽 3D 和 WM tokens,使它们独立学习。(2)视觉瓶颈掩码:阻止动作tokens关注原始图像嵌入 E_img。这迫使模型将所有必要的视觉信息压缩到 H 中,使潜思维成为决策的唯一信息桥梁。
第二阶段:基于潜思维的规划。一旦推理能力建立,就进入第二阶段来优化驾驶策略。将权重反转为 λ_action = 1.0 ≫ λ_WM = λ_3D = 0.01,优先考虑准确的轨迹预测。在此阶段,允许动作tokens同时关注潜 CoT H 和原始图像嵌入 E_img。这使得模型能够结合两种类型的信息:来自 H 的高级物理理解和来自原始图像的细粒度视觉细节。降低的对齐权重,保持推理的一致性,同时规划器学习使用这两种信号来实现稳健的驾驶。
在渐进式SFT阶段之后,策略已获得强大的时空能力,其中几何和动态的潜CoT为推理过程提供了基础。为了进一步提升策略的执行能力,冻结动力学和几何适配器。采用群相对策略优化(GRPO)(Shao,2024)来优化VLA的动作生成,通过最大化轨迹级奖励,并以已建立的潜推理作为稳定的内部指导。
奖励机制。为了激励模型生成安全、合规且精确的驾驶行为,设计一个包含三个不同组成部分的复合奖励函数R。 PDMS奖励(R_traj)使用预测驾驶员模型评分(Dauner,2024)评估预测轨迹的整体质量,该评分已归一化为[0, 1]之间的连续值。格式奖励(R_fmt)是一个离散指标,它严格惩罚不符合所需输出结构的情况。目标奖励(R_goal)通过根据预测终点和真实终点之间的L1距离分配分级激励来鼓励终点精度。
轨迹的总奖励积分如下:
R = λ_traj R_traj + λ_fmt R_fmt + λ_goal R_goal
优化目标。采用 GRPO 作为强化学习算法来优化策略 π_θ。对于每个输入查询 q,从采样策略 π_θ_old 中采样一组 G 个候选输出 {o_1, o_2, …, o_G}。优化过程利用这些输出的相对优势来更新策略,并引入截断目标函数以确保训练稳定性,以及 KL 散度项以防止与参考策略 π_ref 过度偏离。
数据集。主要使用 NAVSIM(Dauner,2024),这是一个基于 OpenScene 面向规划的基准数据集。在标准的 85k 数据集划分中,精选一个包含 24k 个具有挑战性场景的子集,记为 navtrain-hard-24k,以提高训练效率。此外,还采用基于 nuScenes 的 SURDS(Guo,2024)来评估 3D 空间推理能力。为了进一步评估动态场景理解能力,根据 SURDS 构建 NuDynamics 基准数据集。
评价指标。从两个主要维度评估方法:闭环轨迹规划和空间动态推理。
对于 NAVSIM 上的轨迹规划评估,采用 NAVSIMv1 的预测驾驶员模型评分 (PDMS)(Dauner,2024)和 NAVSIMv2 的扩展预测驾驶员模型评分 (EPDMS)(Cao,2025)作为闭环规划指标。
对于空间和动态场景推理,采用两个基准测试。在 SURDS 基准测试中,报告其关键任务的平均准确率,包括偏航角确定 (Yaw)、像素位置估计 (Pixel)、深度范围确定 (Depth)、距离估计 (Dis)、左右确定 (L/R) 和前后确定 (F/B)。在 NuDynamics 基准测试中,用运动状态估计 (Motion) 指标来评估动态物体理解能力。
训练详情。用 InternVL3(Zhu,2025)作为基础模型,并进行 SFT 和 RL 两个阶段的训练。在第一阶段 SFT 中,在 navtrain-hard-24k 数据集上对模型进行 2 个 epoch 的微调。在第二阶段 SFT 中,在完整的 navtrain 数据集上对模型进行 2 个 epoch 的训练。最后,在 RL 阶段,在 navtrain-hard-24k 数据集上对模型进行 2 个 epoch 的训练。对于 SURDS 和 NuDynamics 数据集,仅进行 2 个 epoch 的 SFT 训练。