26年3月来自清华、小米汽车和澳门大学的论文“

26年3月来自清华、小米汽车和澳门大学的论文“LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving”。

视觉-语言-动作（VLA）模型通过统一感知和规划，彻底革新自动驾驶技术，但其对显式文本思维链（CoT）的依赖导致语义-感知的解耦和感知-符号的冲突。近年来，潜推理的兴起，试图通过在连续的隐空间中进行思考来绕过这些瓶颈。然而，如果没有显式的中间约束，标准的潜CoT通常表现为一种与物理无关的表示。为了解决这个问题，提出潜时空VLA（LaST-VLA）框架，该框架将推理范式从离散的符号处理转变为基于物理的潜时空CoT。通过实现双特征对齐机制，将来自3D基础模型的几何约束，和来自世界模型的动态预测，直接蒸馏到潜空间中。结合渐进式SFT训练策略（从特征对齐过渡到轨迹生成），并通过强化学习和组相对策略优化（GRPO）进行优化，以确保安全性和规则合规性。

如图所示VLA范式比较：(a) 直接VLA效率高，但缺乏推理能力。(b) 显式文本CoT可解释，但延迟高且容易出现幻觉。© 朴素潜CoT（无监督）效率高，但不稳定（模型崩溃）。(d) 时空潜CoT（监督）将潜特征与物理先验对齐，实现效率、稳定性和接地性。
请添加图片描述

该方法采用渐进式训练策略，以确保模型能够有效地内化这些基于现实的推理能力。如下图右上角所示，第一阶段的监督学习旨在赋予模型时空推理能力，而第二阶段则侧重于使模型学习特定的规划任务。此外，还采用强化学习（RL）来增强特定的驾驶决策能力，如下图右下角所示。经过监督学习后，模型具备时空理解和规划能力。随后，基于驾驶安全性和舒适性等指标，利用强化学习对模型进行优化，最终使其具备卓越的驾驶技能。
请添加图片描述

该提出的架构旨在通过潜时空CoT机制弥合感知与规划之间的差距。如上图左所示：整个流程包含三个核心组件：（1）潜在时空CoT，（2）渐进式两阶段SFT策略，以及（3）通过GRPO进行潜在接地轨迹细化。

为了教会模型理解三维几何和世界动态，传统方法通常依赖于显式的重建目标，例如预测密集的深度图或未来的视频帧。然而，这些方法存在计算开销高和信息冗余的问题，因为它们迫使模型关注无关的纹理细节，而非关键的物理状态。如上图左所示，在训练过程中引入外部基础模型作为特征-级教师，将其结构化知识提炼到由 VLM 推理过程生成的连续潜token中。这种策略有助于模型有效地理解物理，而无需进行像素级生成。

具体来说，推理过程始于视觉编码。给定输入图像 I_t，使用视觉编码器 V 提取块级视觉嵌入 E_img = V(I_t)。这些视觉特征与语言指令的嵌入 E_L 连接起来，形成多模态输入序列。 VLM π_θ 自回归生成隐状态。令 h_k 表示第 k 步最后一层的输出。潜CoT序列H推导如下：

H = {h_k} = π_θ(E_img, E_L)，

其中K为推理链的长度。该序列被严格划分为动态流(H^dyn)和几何流(H^geo)，以便使用适配器进行两种专门的物理对齐。为了防止适配器仅关注原始像素模式而忽略对齐过程，对视觉嵌入应用随机二值掩码M，得到Ẽ_img = E_img ⊙ M。这些掩码特征和连续的CoT隐状态作为适配器的输入，用于使用不同的先验进行对齐。

动态适配器(Φ_dyn)。如下图(a)所示，该适配器将序列隐状态与视频世界模型(Cosmos (Agarwal et al., 2025))的表示空间连接起来。与标准语言token的静态特性不同，世界模型的潜空间固有地编码时间动态演化。因此，通过将线性token序列投影到该动态流形上，Φ_dyn 有效地捕捉交通参与者的未来运动先验和连续的环境变化。
请添加图片描述

几何适配器 (Φ_geo)。如上图 (b) 所示，该适配器将空间隐状态与 VGGT 3D 基础模型的密集特征空间对齐（Wang，2025a）。通过将语言潜状态 H^geo 与原始视觉嵌入 E ̃_img 融合，它直接在潜空间中恢复度量精确的空间先验，例如场景深度和占用结构。整体转换过程正式定义为：

p^geo = Φ_geo(H^geo, E ̃_img), p^dyn = Φ_dyn(H^dyn, E ̃_img),

潜思维链 (CoT) 充当隐推理桥梁，编码三维空间中世界的外观及其变化方式，同时保持完全可微性并与下游轨迹输出空间对齐。

潜条件规划。最后，将落地潜思维链整合到轨迹生成过程中。在潜推理阶段之后，策略根据以下物理推理自动回归地预测未来路径点（以文本token表示）：

a_t ∼ π_θ(a_t | H^dyn, H^geo, Q_t)。

这确保最终的规划决策明确地由潜空间中提炼出的时空理解驱动。

渐进式两阶段监督微调策略

该方法在训练过程中引入外部基础模型作为特征教师，并将它们的结构化知识提炼到 VLM 推理过程中生成的连续潜token中。为了有效地实现这一点，提出一种渐进式两阶段监督微调策略，该策略将复杂的目标解耦为学习思考和学习行动。

统一的优化目标。首先为两个阶段制定统一的训练目标。为了使潜token与物理现实相联系，采用从冻结基础模型中提取特征的方法，将源自 Cosmos 模型的动态特征记为 F_Cosmos，将源自 VGGT 聚合器的几何特征记为 F_VGGT。对于动态表示，指定三组潜tokens，以与 F_Cosmos 的时间特征相匹配。这些tokens编码跨越不同时间尺度的动态变化，捕捉短期、中期和长期运动。同时，分配一组不同的潜tokens与 F_VGGT 对齐，以捕捉静态几何约束。对齐损失，计算为适配器投影特征 p 与这些教师目标之间的均方误差 (MSE)，即L_WM。
总SFT损失把轨迹预测误差结合以下的物理对准项：

L_total = λ_action L_CE + λ_WM L_WM + λ_3D L_3D，

其中 L_CE 表示动作生成的交叉熵损失，λ 是跨阶段动态调整的平衡系数。

第一阶段：物理-觉察对齐。在初始阶段，优先学习物理知识而非生成轨迹。将损失权重设置为 λ_WM = λ_3D = 1.0 ≫ λ_action = 0.01。这强制潜 CoTH 与教师模型的几何和动态表示严格对齐。为了确保规划器依赖于这种推理，应用结构化因果掩码：（1）潜相互掩码：屏蔽 3D 和 WM tokens，使它们独立学习。（2）视觉瓶颈掩码：阻止动作tokens关注原始图像嵌入 E_img。这迫使模型将所有必要的视觉信息压缩到 H 中，使潜思维成为决策的唯一信息桥梁。

第二阶段：基于潜思维的规划。一旦推理能力建立，就进入第二阶段来优化驾驶策略。将权重反转为 λ_action = 1.0 ≫ λ_WM = λ_3D = 0.01，优先考虑准确的轨迹预测。在此阶段，允许动作tokens同时关注潜 CoT H 和原始图像嵌入 E_img。这使得模型能够结合两种类型的信息：来自 H 的高级物理理解和来自原始图像的细粒度视觉细节。降低的对齐权重，保持推理的一致性，同时规划器学习使用这两种信号来实现稳健的驾驶。

基于潜轨迹优化的GRPO

在渐进式SFT阶段之后，策略已获得强大的时空能力，其中几何和动态的潜CoT为推理过程提供了基础。为了进一步提升策略的执行能力，冻结动力学和几何适配器。采用群相对策略优化（GRPO）（Shao，2024）来优化VLA的动作生成，通过最大化轨迹级奖励，并以已建立的潜推理作为稳定的内部指导。

奖励机制。为了激励模型生成安全、合规且精确的驾驶行为，设计一个包含三个不同组成部分的复合奖励函数R。 PDMS奖励（R_traj）使用预测驾驶员模型评分（Dauner，2024）评估预测轨迹的整体质量，该评分已归一化为[0, 1]之间的连续值。格式奖励（R_fmt）是一个离散指标，它严格惩罚不符合所需输出结构的情况。目标奖励（R_goal）通过根据预测终点和真实终点之间的L1距离分配分级激励来鼓励终点精度。

轨迹的总奖励积分如下：

R = λ_traj R_traj + λ_fmt R_fmt + λ_goal R_goal

优化目标。采用 GRPO 作为强化学习算法来优化策略 π_θ。对于每个输入查询 q，从采样策略 π_θ_old 中采样一组 G 个候选输出 {o_1, o_2, …, o_G}。优化过程利用这些输出的相对优势来更新策略，并引入截断目标函数以确保训练稳定性，以及 KL 散度项以防止与参考策略 π_ref 过度偏离。

数据集。主要使用 NAVSIM（Dauner，2024），这是一个基于 OpenScene 面向规划的基准数据集。在标准的 85k 数据集划分中，精选一个包含 24k 个具有挑战性场景的子集，记为 navtrain-hard-24k，以提高训练效率。此外，还采用基于 nuScenes 的 SURDS（Guo，2024）来评估 3D 空间推理能力。为了进一步评估动态场景理解能力，根据 SURDS 构建 NuDynamics 基准数据集。

评价指标。从两个主要维度评估方法：闭环轨迹规划和空间动态推理。

对于 NAVSIM 上的轨迹规划评估，采用 NAVSIMv1 的预测驾驶员模型评分 (PDMS)（Dauner，2024）和 NAVSIMv2 的扩展预测驾驶员模型评分 (EPDMS)（Cao，2025）作为闭环规划指标。

对于空间和动态场景推理，采用两个基准测试。在 SURDS 基准测试中，报告其关键任务的平均准确率，包括偏航角确定 (Yaw)、像素位置估计 (Pixel)、深度范围确定 (Depth)、距离估计 (Dis)、左右确定 (L/R) 和前后确定 (F/B)。在 NuDynamics 基准测试中，用运动状态估计 (Motion) 指标来评估动态物体理解能力。

训练详情。用 InternVL3（Zhu，2025）作为基础模型，并进行 SFT 和 RL 两个阶段的训练。在第一阶段 SFT 中，在 navtrain-hard-24k 数据集上对模型进行 2 个 epoch 的微调。在第二阶段 SFT 中，在完整的 navtrain 数据集上对模型进行 2 个 epoch 的训练。最后，在 RL 阶段，在 navtrain-hard-24k 数据集上对模型进行 2 个 epoch 的训练。对于 SURDS 和 NuDynamics 数据集，仅进行 2 个 epoch 的 SFT 训练。

26年3月来自清华、小米汽车和澳门大学的论文“

渐进式两阶段监督微调策略

基于潜轨迹优化的GRPO

相关阅读

本类排行

相关标签

本类推荐

栏目热点

猜你喜欢