小鹏第二代 VLA 与OpenDriveVLA在技术理念、端到端架构、控制输出方式上最为接近,均以 “视觉优先 + 直接动作输出” 为核心;但小鹏第二代 VLA 在物理世界理解深度与架构纯度上实现了关键突破(彻底取消语言转译环节),这是当前开源项目尚未完全复刻的核心差异。
- 端到端理念一致:均摒弃传统模块化架构,追求 “传感器输入→控制输出” 的直接映射,减少信息损耗
- 视觉第一性原理:均以视觉为核心输入,辅以车辆状态与导航指令,弱化对高精地图依赖
- 量产导向设计:均考虑车端部署可行性,优化模型大小与推理速度,支持实时运行
- 架构纯度革命:彻底取消语言转译环节,实现真正的 V→A 直连,而非优化对齐过程
- 物理 AI 原生能力:720 亿参数世界模型硬编码物理定律,实现从 “数据拟合” 到 “物理理解” 的质变
- 控制精度跃升:直接输出底层控制指令,重刹减少 99%,转向丝滑度接近人类老司机
- 相似点:无显式语言环节,感知→预测→规划全栈融合,输出轨迹与控制指令
- 差异:采用 “查询机制 + 分层任务” 设计,保留中间感知 / 预测模块,端到端纯度低于小鹏第二代 VLA
- 相似点:物理规律理解,可预测物体运动惯性与碰撞风险,辅助决策规划
- 差异:侧重 4D 占用预测与视频生成,不直接输出控制指令,更适合仿真与数据增强
- 相似点:物理约束锚定生成逻辑,确保输出符合真实世界动力学
- 差异:仅 3.47M 参数,适合边缘设备,物理理解深度有限,无法处理复杂因果推理
小鹏第二代 VLA 在架构纯度与物理理解深度上实现了行业领先,当前开源项目中最接近的是OpenDriveVLA(技术理念与端到端架构高度一致),但仍未完全复刻其 “彻底去语言转译” 与 “物理 AI 原生能力” 两大核心突破。
需要我基于 OpenDriveVLA 提供一份 “去语言转译” 的修改方案(核心模块替换、损失函数调整、推理链路简化),帮助你快速复现小鹏第二代 VLA 的核心架构吗?