26年2月来自华中科技、小米汽车和清华AIR的论文

26年2月来自华中科技、小米汽车和清华AIR的论文“DriveFine: Refining-Augmented Masked Diffusion VLA for Precise and Robust Driving”。

用于自动驾驶的视觉-语言-动作（VLA）模型越来越多地采用生成式规划器，这些规划器先经过模仿学习训练，再进行强化学习。基于扩散的规划器存在模态对齐困难、训练效率低和泛化能力有限等问题。基于token 的规划器则饱受累积因果误差和不可逆解码的困扰。总而言之，这两种主流范式各有优劣。本文提出一种名为DriveFine的掩码扩散VLA模型，它结合了灵活的解码能力和自纠错能力。特别地，设计一种即插即用型块状模态专家（MoE），它可以在生成专家之上无缝地注入一个精细化专家。通过在推理过程中启用显式专家选择，并在训练过程中采用梯度分块，实现两个专家的完全解耦，从而保留预训练权重的基础能力和通用模式，凸显分块模型设计的灵活性和可扩展性。此外，设计一种混合强化学习策略，该策略鼓励有效探索改进专家，同时保持训练的稳定性。

近年来，非确定性生成式规划器已成为自动驾驶VLA的主流范式。它们将动作预测为概率分布，有效地捕捉了驾驶行为的多模态特性。此外，其固有的采样能力鼓励主动探索，并能够与规则驱动的强化学习策略（例如GRPO）无缝集成，从而指导策略学习。目前最先进的生成式VLA可分为两类：一类是基于扩散的模型[18,24,28,51]，采用连续动作建模；另一类是基于token的规划器[29,48,49]，采用离散动作表示。

（1）如图 (a)所示，基于扩散的VLA构建马尔可夫链，并通过预测轨迹的均值和方差来迭代地优化噪声轨迹。
请添加图片描述

尽管并行解码提高了效率，但额外的扩散transformer阻碍了跨模态对齐，导致训练效率低下，通常需要数百个epoch。

此外，基于扩散的规划器本质上是条件生成器，这限制了它们的鲁棒性和泛化能力，如下图所示：当使用面向PDMS的强化微调进行优化时，基于扩散的规划器[24,28]的EPDMS值显著下降。我这种性能下降归因于扩散规划器和VLM之间的弱耦合，这会导致奖励作弊和预训练知识的丢失，从而极大地限制了它们的实际应用。
请添加图片描述

(2) 如上上图 (b) 所示，基于token的视觉语言架构 (VLA) 在预定义的词汇表内自回归地将动作解码为token，从而实现视觉、语言和动作之间的统一表示。如上图所示，面向 PDMS 的 InternVL [5] 的 RFT 同时提升 PDMS 和 EPDMS 的性能，展现出更强的泛化能力和可扩展性。
然而，基于token的 VLA [29,49] 在性能和效率方面通常落后于基于扩散的同类架构 [24,51]。这主要是由于其因果注意机制和逐token固定解码方式，这种方式计算成本高昂，且在推理过程中容易累积错误。更重要的是，它们继承了大语言模型 (LLM) 的不可逆解码特性：解码后的token一旦提交就无法修改。然而，规划对噪声高度敏感：即使是点级偏差也可能导致整个轨迹失败，例如碰撞或越野行驶（如图所示）。
请添加图片描述

最近的研究 [19,43] 探索掩码扩散 LLM （dLLM）[20,32]，其具有更灵活的驾驶解码顺序。然而，这种灵活性加剧了不可逆解码问题：如上图所示，早期解码的token缺乏全局一致性约束，更容易成为异常值，并且之后无法修正，从而导致轨迹级失败。相比之下，基于扩散的规划器通过迭代优化轨迹，实现连续的改进，从而确保生成高质量的轨迹。

显然，两种 VLA 规划器各有优缺点，因此有必要探索一种能够兼顾两者优势的模型。本文提出一种名为 DriveFine 的算法，该算法首次显式地注入 token-VLA 的精细化能力，以实现更精准、更鲁棒的驾驶体验。其采用预训练的多模态掩码扩散 LLM（LaViDa [20]，以 LLaDA [32] 作为 LLM）作为基础规划器，因为与自回归（AR） LLM 相比，它具有以下几个优势：并行解码提高效率，双向注意机制增强上下文建模，灵活的解码策略也便于自适应学习。

用于规划的扩散型LLM

模块的token化。如图所示，预训练的视觉塔（SigLIP [38]）处理单张前视图像，生成连续的视觉tokens，同时文本token化器将文本提示信息转换为离散tokens。
请添加图片描述

为了保持轨迹的连续性并实现token级细化，参考先前的工作[19, 43]对动作空间进行离散化。空间范围[-100m, +100m]被均匀划分为4000个分辨率为0.05m的区间，纵轴和横轴方向共享这些区间。航向角范围[-90, +90]被离散化为1800个分辨率为0.1的区间。这些区间被添加到LLM词汇表中，从而能够直接解码轨迹token，并促进语言和动作之间的统一跨模态对齐。

训练和推理。生成专家遵循标准的 dLLM 训练和推理范式。在训练过程中，干净的序列会被随机掩码破坏，其中token以概率 t 被替换为特殊的掩码token [M]，并通过一个掩码交叉熵损失进行监督。在推理阶段，策略模型会根据给定的输入（愿景和指令）进行调整，并通过多次迭代的去掩码步骤，逐步从完全掩码的轨迹中重构出一条可行的轨迹。具体来说，在去噪步骤 t，掩码预测器（生成专家）会并行预测噪声轨迹 r_t 中所有被掩码的token。然后，对一部分掩码token进行解码，得到序列 r_t−1，用于下一次迭代。

用于细化的块级混合专家模型

正如之前的分析所示，灵活的token解码加剧不可逆解码的风险，凸显了细化的必要性。

最直接的方法是引入额外的混合专家层来实现自适应学习，并直接对未掩码token应用损失函数进行监督。然而，这偏离dLLM的标准预训练和推理范式，使其失去了基础能力，因为它们只能学习解码掩码token。此外，生成和细化之间的深度耦合会引入相互干扰，阻碍针对特定任务的调优和优化。然而，完全解耦这些组件又不可避免地会导致参数数量的急剧增加。

尽管生成和细化的目标不同，但它们在上下文表示方面具有高度相似性。基于此，提出块级混合专家模型（block-MoE），并搭配精心设计的训练-推理流程。

如上图所示，一个扩散语言模型 (LLaDA) 由多个堆叠的模块组成。将预训练的 dLLM 作为一个完整的生成专家，并复制其最后 n 个模块作为细化模块，而前面的模块和视觉塔则由生成专家和细化专家共享。

训练和推理。在推理过程中，模型被明确地指示执行特定任务。共享模块提取通用的上下文表示，然后手动激活相应的专家模块来执行生成或细化操作。

在训练过程中，生成分支仅计算掩码token的损失，而细化分支计算所有token的损失，梯度流仅限于细化专家。这里，细化专家仅进行简单的热启动以进行基本解码。

显然，模块式模型在训练和推理过程中实现生成和细化之间的完全解耦。这保留预训练模型的基础知识，防止了灾难性遗忘。此外，改进专家模型即插即用，可以与生成专家模型同步训练，突显了其灵活性和可迁移性。

强化微调（RFT）

近期研究从理论和实证两方面都证明了强化学习在自动驾驶中的关键作用。利用强化微调（RFT）可以充分挖掘和提升DriveFine的潜力。如图所示：
请添加图片描述

GRPO 用于生成专家。对于生成专家，采用一种基于规则的在线强化学习策略，即群体相对策略优化（GRPO）。给定任意场景，生成专家并行采样一组候选轨迹。按照 [41]，逐步采样 s 步以确保训练和推理之间的一致性，并聚合每 τ 个相邻步骤以平衡对齐和效率。

用于优化专家的混合强化学习。优化专家的目标是对生成的轨迹进行微调，以提高其质量。与锚定轨迹相比，无论锚定轨迹本身如何，都应鼓励那些能够提高分数的纠正动作，而惩罚那些会降低分数的动作。因此，生成的轨迹自然而然地成为优势计算的参考，从而无需像传统强化学习那样进行基线估计（例如，PPO 中的价值网络或 GRPO 中的组平均奖励）。注：轨迹采样保证多样性，使得它们可以直接用于训练优化专家，而无需进一步修改。

对于采样轨迹，计算成对奖励差异以获得相对优势矩阵。由于采样轨迹由生成专家生成，因此它们构成精细化专家的离线数据。这里采取离线的优势矩阵，因为其具有以下几个优点：(1) 其均值为零，既能鼓励改进又能惩罚退步；(2) 与 GRPO 相比，优势矩阵的平方能提供更密集的奖励信号，从而增强训练稳定性；(3) 无需额外采样，使得计算简单高效。

尽管该优化器具有诸多优势，但其性能本质上仍受限于上限。为了鼓励优化器自主探索，对于每个生成的轨迹，允许它在线采样若干个精细轨迹，并同时计算它们对应的奖励。最后，计算一个混合损失以优化改进专家。

在实现中，生成器和细化器是同步训练的：生成器在线采样轨迹，然后将采样结果输入到细化器进行训练，从而实现它们的协同学习和改进。

实现细节。采用 Siglip-384 [38] 作为视觉塔，它将单个前视图像分割成 8 个大小为 384 × 384 的图像块。直接加载来自 LLaDA-8B [32] 的预训练权重，其中前 28 个 Transformer 块作为共享块，后 4 个块作为专家块。DriveFine 的训练分为两个阶段。第一阶段，它使用 ReCogDrive [24] 提供的问答对和文本化轨迹进行监督微调 (SFT)，无需任何额外的预训练。第二阶段，它在 NAVSIM 仿真环境中进行强化微调 (RFT)。

在 SFT 阶段，模型训练 12 个 epoch，批大小为 64，使用 AdamW 优化器进行优化，学习率为 4 × 10⁻⁵，并采用余弦学习率衰减。

在 RFT 阶段，用于生成专家展开的组大小设置为 10，每条轨迹由优化器在线进一步优化 6 次。模型训练 1 个 epoch，批大小为 16，学习率为 1 × 10⁻⁶。

在推理阶段，DriveFine 执行 12 个采样步骤，然后执行一个精细化步骤，解码过程遵循置信度优先和余弦调度。

26年2月来自华中科技、小米汽车和清华AIR的论文

用于规划的扩散型LLM

用于细化的块级混合专家模型

强化微调（RFT）

相关阅读

本类排行

相关标签

本类推荐

栏目热点

猜你喜欢