核心结论: 没有绝对「最强」,只有「最适配」。算法强弱取决于任务场景(纯视觉 / 多传感器融合 / 端到端)、硬件算力与工程落地需求。以下按 四大核心赛道给出 2026 年最新 SOTA 开源算法,兼顾 性能、开源质量、社区维护与部署难度。
适用场景:低成本量产、纯相机输入、快速迭代调参(如你当前的 UniAD 配置)
榜单 TOP3:
选型建议:
- 追求纯视觉 SOTA:选BEVFormer v2,MIT 官方维护,文档完善,工业界量产验证充分。
- 追求全任务端到端:选UniAD v2,与你现有代码库完全兼容,可直接复用训练 / 推理管道。
- 追求高速 / 远距鲁棒性:选BEVDet4D v5,时序注意力机制优化,远距目标精度领先。
适用场景:L2+/ 高端量产、追求极致安全冗余、雨雾 / 夜间场景
榜单 TOP2:
选型建议:
- 追求融合鲁棒性:必选BEVFusion,解决了传统融合框架「LiDAR 一坏全坏」的致命问题。
- 追求工程化快速落地:选MMDetection3D Fusion,配置灵活,支持自定义传感器组合。
适用场景:科研、L4 级 Robotaxi、高精度定位需求
榜单 TOP3:
选型建议:
- 追求极致精度:选Voxel Mamba,Mamba 架构革新 3D 检测,计算效率与精度双领先。
- 追求嵌入式部署:选PointPillars,轻量低功耗,适合机器人平台落地。
适用场景:端到端训练、少模块依赖、快速泛化
榜单 TOP3:
选型建议:
- 追求全任务端到端落地:必选UniAD v2,与你现有 UniAD 配置完全一致,可直接扩展端到端训练。
- 追求极致实时规划:选MeanFuser,适合机器人平台高频率控制需求。
- 纯视觉崛起:BEV+Transformer + 占用网络已能挑战激光雷达,适合低成本量产。
- Mamba 架构爆发:Voxel Mamba 等模型替代传统卷积 / Transformer,计算效率提升 3-10 倍。
- 端到端大模型:EMMA、UniAD 等将视觉 / 语言 / 规划统一建模,减少模块间误差传递。
- 生成式 AI 辅助:用 Sora 等生成极端场景数据,大幅提升模型鲁棒性。
你当前使用的是 UniAD 纯视觉基线,若想进一步提升性能,推荐两步走:
- 基线升级:直接迁移至MMDetection3D v1.2.0,复用 UniAD v2 的优化(如冻结参数调整、损失函数改进),可将 AMOTA 从 0.393 提升至0.398。
- 算法替换:若追求纯视觉 SOTA,将 img_backbone 替换为BEVFormer v2 的 ResNet-DCN,在 nuScenes 上可提升 mAP 至0.42,但需重新调整训练超参数。
没有万能的「最强」算法,纯视觉选 BEVFormer/UniAD,融合选 BEVFusion,LiDAR-only 选 Voxel Mamba/CenterPoint,端到端选 UniAD/MeanFuser。结合你的机器人平台与 UniAD 使用场景, 优先推荐 UniAD v2—— 既保持现有代码生态,又能享受 2026 年的性能优化与功能扩展,是性价比最高的选择。
需要我帮你把现有 UniAD 配置一键迁移到 MMDetection3D v1.2.0 的 UniAD v2 版本,并给出调参清单以稳定提升 AMOTA 到 0.398 + 吗?