端到端自动驾驶的规划模块长期面临一个两难选

「自动驾驶正在经历一场深刻的范式转变」

01 大模型驱动的端到端驾驶，推理能力成为新战场

DrivePI：首个统一4D多模态大模型，让感知、预测、规划在一个框架内协同

MindDriver：模拟"感知-想象-行动"三阶段，渐进式多模态推理破解驾驶规划难题

02 生成式规划与约束满足，让轨迹既多样又安全

GuideFlow：约束引导流匹配，将安全规则直接编织进轨迹生成过程

03 感知增强与新型数据范式，拓展系统的感知边界

Spatial Retrieval AD：像老司机一样"记住"路——地理图像检索增强自动驾驶

04 开放世界感知，让模型在未知域和未知类别中保持鲁棒

S²-Corr：状态空间模型精炼文本-图像相关性，首个开放词汇域泛化城市场景分割基准

05 总结与展望

在CVPR 2026的录用论文中，自动驾驶领域呈现出三条清晰的研究脉络：

多模态大语言模型与驾驶规划的深度融合，研究者们在探索如何让模型真正"理解"驾驶场景并进行有效推理；
生成式规划与约束满足的结合，让轨迹生成既多样又安全；
感知增强与新型数据范式的探索，不断拓展系统的感知边界；

本文精选了数篇来自CVPR 2026的自动驾驶工作，带您一览这一领域的最新进展。

需要特别说明的是，入选并不意味着这些工作在质量上优于同期其他论文——事实上，同一时期涌现出的优秀研究远不止于此。受限于篇幅，大量同样出色甚至更具影响力的工作未能在本文中得到呈现，这是选题取舍的结果，而非价值判断。如有遗漏您认为值得关注的重要工作，欢迎在评论区留言补充，我们也会持续追踪和介绍这一领域的最新进展。

01 大模型驱动的端到端驾驶，推理能力成为新战场

随着视觉语言模型（VLM）的能力边界不断扩展，越来越多的研究者开始尝试将其引入自动驾驶的核心决策链路。然而，如何让语言推理真正服务于物理轨迹规划，而不仅仅停留在文字描述层面，成为这一方向最核心的挑战。

DrivePI：首个统一4D多模态大模型，让感知、预测、规划在一个框架内协同

机构：香港大学、引望科技、天津大学、华中科技大学

主要内容：现有的自动驾驶大模型面临一个两难困境：专注于精确3D感知的VA（视觉-动作）模型缺乏自然语言交互能力，而具备语言理解的VLA（视觉-语言-动作）模型又往往牺牲了精细的空间感知精度。这两类模型各有所长，却难以兼顾。

DrivePI的出发点正是打破这一壁垒。研究团队提出了一个统一的空间感知4D多模态大语言模型框架，将LiDAR点云与多视角图像融合后，通过空间投影器转化为视觉token，再输入MLLM进行联合推理。模型的输出端设计了四个专用头：文本头负责场景理解问答，3D占用头输出精确的空间感知结果，占用流头预测动态物体的运动趋势，动作扩散头则生成最终的驾驶轨迹。

在实验结果上，DrivePI展现出令人印象深刻的综合能力。仅以0.5B参数的Qwen2.5作为语言骨干，DrivePI在nuScenes-QA上的平均精度就比7B参数的OpenDriveVLA高出2.5%，而碰撞率更是从0.37%骤降至0.11%，降幅高达70%。与此同时，相比专用的VA模型FB-OCC，DrivePI的3D占用预测RayIoU提升了10.3，规划L2误差也从0.72m降至0.49m，降幅达32%。这一结果表明，统一框架不仅没有以牺牲专项性能为代价，反而实现了多任务的协同增益。

MindDriver：模拟"感知-想象-行动"三阶段，渐进式多模态推理破解驾驶规划难题

机构：高德地图、香港科技大学、香港中文大学、西安交通大学

主要内容：将语言链式推理（CoT）引入自动驾驶规划，听起来顺理成章，但实践中却暗藏两个陷阱。第一个陷阱是"空间错位"：纯文字的推理链生活在语义空间，而驾驶轨迹存在于物理坐标空间，两者之间缺乏有效的桥接机制。第二个陷阱是"无引导推理"：一些工作尝试用预测的未来图像替代文字推理，但这些图像缺乏规划目标的引导，生成结果往往与实际驾驶意图脱节。

MindDriver的核心Insight是：驾驶决策的形成是渐进式的——先感知场景、分析风险，再在内部表征中构建可能的未来场景，最后才做出行动决策。研究团队将这一过程显式地建模为三个递进阶段：文本推理阶段分析当前场景的潜在风险和行为决策；视觉想象阶段以文本推理为条件生成未来场景图像，在语义空间与物理空间之间架起桥梁；轨迹预测阶段则以生成的未来图像为引导，输出最终的物理轨迹。

为了训练这一复杂的渐进推理链，研究团队还设计了一套反馈引导的自动标注流程，通过规则过滤、模型过滤和错误反馈重新标注三个环节，生成高质量的多模态推理训练数据。在优化策略上，渐进强化微调（Progressive RFT）采用两阶段GRPO，先优化图像生成质量，再优化轨迹规划精度。

实验结果表明，MindDriver在开环评估（nuScenes）中，L2误差仅为0.53m，碰撞率低至0.17%，优于VAD、UniAD、OccWorld等一系列基线方法。在更贴近真实部署的闭环评估（CARLA/Bench2Drive）中，驾驶评分达到65.48，成功率39.55%。值得一提的是，未来帧生成的FID仅为9.4，优于所有扩散模型和自回归模型，说明"构建未来场景"的质量直接决定了规划的上限。

02 生成式规划与约束满足，让轨迹既多样又安全

生成式方法天然具备多模态轨迹生成的能力，但如何在生成过程中直接施加安全约束，而不依赖额外的后处理优化，是这一方向的核心技术挑战。

GuideFlow：约束引导流匹配，将安全规则直接编织进轨迹生成过程

机构：北京交通大学、Qcraft、燕山大学、中国科学院信息工程研究所、昆士兰大学

主要内容：端到端自动驾驶的规划模块长期面临一个两难选择：模仿式规划器用L2损失模仿专家轨迹，简单高效，但因为每个驾驶场景只有一条真值轨迹，模型会陷入"模式坍塌"，只能生成单一的确定性路径，无法表达"左转还是右转"这类多义性驾驶意图。生成式规划器（扩散模型、流匹配）能够生成多条候选轨迹，但安全约束往往只能在生成完成后通过后处理来施加，无法从根本上保证生成过程的约束满足。

GuideFlow的核心创新在于将约束直接编织进流匹配的生成过程中，提出了三个互补的约束机制。约束速度场（CVF）在每一个生成步骤主动修正预测的速度场，让轨迹始终朝着满足约束的方向演化；约束流状态（CF）在生成过程中对偏离约束的流路径施加一次性修正，以最小的干预代价将轨迹拉回约束范围；EBM精炼流（RFE）将流匹配与能量基模型统一训练，赋予模型自主探索数据流形并发现满足约束的低能量解的能力。此外，GuideFlow还将环境奖励作为条件信号，参数化驾驶激进程度，允许在推理时灵活切换保守与激进的驾驶风格。

实验表现：在NavSim Navhard Split闭环评估中，GuideFlow（无Scorer）以27.1 EPDMS的成绩超越所有同类无Scorer方法；集成Scorer后，EPDMS进一步提升至43.0，刷新当时的最优记录。在Bench2Drive上，GuideFlow的驾驶评分达到75.21，成功率51.36%，显著优于UniAD、VAD等基线。在开环安全性评估上，NuScenes平均碰撞率仅0.07%，ADV-NuScenes平均碰撞率0.73%，均为所有对比方法中最低。

03 感知增强与新型数据范式，拓展系统的感知边界

感知是自动驾驶的基础，而感知的瓶颈往往不在于算法，而在于数据和输入模态的局限。这一方向的研究者们从不同角度探索如何突破车载传感器的先天限制。

Spatial Retrieval AD：像老司机一样"记住"路——地理图像检索增强自动驾驶

机构：复旦大学可信具身智能研究院、上海交通大学、中国科学院空天信息创新研究院、中国科学技术大学

主要内容：一位经验丰富的老司机在大雾天行驶时，即使视线受阻，也能凭借对这条路的记忆判断前方的弯道和路口。这种"空间记忆"能力，正是现有自动驾驶系统所缺乏的。车载传感器只能感知当前时刻的局部环境，在遮挡、极端天气、低曝光等恶劣条件下，感知质量会急剧下降。

研究团队提出了空间检索范式（Spatial Retrieval Paradigm）：通过GPS坐标，在行驶前预先从Google Maps等离线地理数据库中检索对应位置的街景和卫星图像，将其作为额外的输入模态注入现有AD模型。这一设计的精妙之处在于，地理图像是离线缓存的，不受驾驶时环境条件的影响，能够提供稳定的背景先验信息。为了将地理图像无缝集成到现有模型中，研究团队设计了一个即插即用的空间检索适配器：地理图像经编码后，通过Geo Cross-Attention与BEV特征融合；可靠性估计门（REG）则根据外观相似度和位置误差自动评估检索质量，当地理图像与当前场景不匹配时（如地图过时、GPS误差），自动降低其影响权重，确保系统的鲁棒性。

实验结果：研究团队构建了nuScenes-Geography数据集，系统评估了空间检索范式在五个核心AD任务上的效果。在在线建图任务上，MapTRv2+Geo的mAP从68.7提升至78.2，绝对提升9.5个点；在占用预测任务上，FBOcc+Geo的静态地形类别mIoU普遍提升1至2个点；在夜间规划场景中，碰撞率从0.55%降至0.48%；在生成式世界模型任务上，UVG+Geo的FVD从36.10降至29.97，时序一致性显著改善。

04 开放世界感知，让模型在未知域和未知类别中保持鲁棒

真实世界的驾驶场景远比训练数据集复杂——不同的天气、地理区域、施工环境，以及训练时从未见过的物体类别，都是系统必须应对的挑战。

S²-Corr：状态空间模型精炼文本-图像相关性，首个开放词汇域泛化城市场景分割基准

机构：特伦托大学（意大利）、合肥工业大学

主要内容：语义分割在自动驾驶中扮演着基础性角色，但现有方法面临两类相互独立的局限：域泛化语义分割（DG-SS）能够适应未见域（如从合成数据迁移到真实场景），但只能识别训练时固定的类别集合；开放词汇语义分割（OV-SS）借助CLIP等视觉语言模型可以识别任意类别，但对域偏移极为敏感，在未见域中性能大幅下降。在真实的自动驾驶部署场景中，系统同时面临"未见域"和"未见类别"的双重挑战，现有方法均无法有效应对。

研究团队首先定义了开放词汇域泛化语义分割（OVDG-SS）这一新任务设置，并构建了首个针对自动驾驶的综合基准，涵盖合成到真实、真实到真实两种泛化设置，以及不同天气光照、地理区域差异、施工场景三类未见域，超过30个自动驾驶相关类别。在方法层面，研究团队提出了S²-Corr（状态空间驱动的文本-图像相关性精炼机制）。其核心思路是：CLIP提取的文本-图像相关性在域偏移条件下会引入大量噪声，需要在聚合前进行精炼。S²-Corr在状态空间模型（SSM）的框架下，通过三个设计来实现这一目标：聚合前调制（Modulation Before Aggregation）向相关性嵌入注入图像和文本的特定线索，减少域偏移引入的噪声；可学习几何衰减先验（Learnable Geometric Decay Prior）在SSM中引入可学习的衰减因子，抑制长程噪声依赖；分块蛇形扫描（Chunk-wise Snake Scanning）在保持空间连续性的同时避免行边界处的不连续性。

实验结果：在OVDG-SS基准的Cityscapes测试集上，S²-Corr在19类和58类设置下均取得49.3的mIoU，在性能、速度、参数量三个维度上实现了最佳的综合权衡，优于SoMA（CVPR'25）、MaskAdapter（CVPR'25）等近期方法。

05 总结与展望

纵观本次CVPR 2026自动驾驶方向的入选论文，可以清晰地感受到这一领域正在经历的三重演进：从模块化到端到端的架构革命、从单一传感器到多模态融合的感知升级、从封闭类别到开放世界的泛化跨越。

尤为值得关注的是，大语言模型与驾驶规划的结合已经从概念验证走向了实质性的性能突破——DrivePI和MindDriver都表明，让模型真正"理解"场景并进行有效推理，可以同时带来感知、预测、规划多个维度的协同提升。

与此同时，GuideFlow代表的生成式规划方向也在探索一条务实的路径：不追求彻底颠覆现有架构，而是通过精巧的约束机制让生成过程本身变得更安全可靠。而Spatial Retrieval AD则提醒我们，数据与感知模态的创新同样是推动领域进步的重要驱动力——有时候，突破瓶颈的关键不在于更复杂的算法，而在于更聪明地利用已有信息。

REF

[1] DrivePI: DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning, https://arxiv.org/abs/2512.12799

[2] MindDriver: MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving, https://arxiv.org/abs/2602.21952

[3] GuideFlow: GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving, https://arxiv.org/abs/2511.18729

[4] Spatial Retrieval AD: Spatial Retrieval Augmented Autonomous Driving, https://arxiv.org/abs/2512.06865

[5] S²-Corr: Open-Vocabulary Domain Generalization in Urban-Scene Segmentation, https://arxiv.org/abs/2602.18853

端到端自动驾驶的规划模块长期面临一个两难选

01 大模型驱动的端到端驾驶，推理能力成为新战场

DrivePI：首个统一4D多模态大模型，让感知、预测、规划在一个框架内协同

MindDriver：模拟"感知-想象-行动"三阶段，渐进式多模态推理破解驾驶规划难题

02 生成式规划与约束满足，让轨迹既多样又安全

GuideFlow：约束引导流匹配，将安全规则直接编织进轨迹生成过程

03 感知增强与新型数据范式，拓展系统的感知边界

Spatial Retrieval AD：像老司机一样"记住"路——地理图像检索增强自动驾驶

04 开放世界感知，让模型在未知域和未知类别中保持鲁棒

S²-Corr：状态空间模型精炼文本-图像相关性，首个开放词汇域泛化城市场景分割基准

05 总结与展望

相关阅读

本类排行

相关标签

本类推荐

栏目热点

猜你喜欢