英伟达开源了Alpamayo-R1-10B模型，这是一个基于T

英伟达开源VLA模型Alpamayo-R1-10B介绍

面向正在开发和评估用于自动驾驶场景（特别是处理罕见的长尾事件）的 VLA 模型

1.模型权重

https://www.modelscope.cn/models/nv-community/Alpamayo-R1-10B

2.模型推理代码

GitHub: https://github.com/NVlabs/alpamayo

3.参考文献

chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/file:///C:/Users/admin/Desktop/25a54ecc-762e-417a-b93a-563dfb3e7b01.pdf

4.模型架构：

（1）架构类型： Transformer

（2）网络架构：

基于 Cosmos-Reason 的 VLA 模型，并采用基于扩散模型的轨迹解码器。

本模型基于以下技术开发： Cosmos-Reason（VLM 主干网络）配合基于扩散模型的动作解码器

（3）模型参数数量：

主干网络：82 亿参数
动作专家模块：23 亿参数

5.模型输入：

输入类型： 图像/视频、文本、自车运动历史（Egomotion History）

输入格式：

图像：红、绿、蓝（RGB）
文本：字符串
自车运动历史：浮点值 (x, y, z), R_rot

输入参数：

图像：二维（2D）、多摄像头、多时间步
文本：一维（1D）
自车运动历史：三维（3D）平移和九维（9D，3x3）旋转，多时间步

其他与输入相关的属性： 多摄像头图像（4 个摄像头：前广角、前长焦、左交叉、右交叉），以 10Hz 频率采集，包含 0.4 秒历史窗口（每个摄像头 4 帧），图像分辨率为 1080x1920 像素（处理器会将其下采样至 320x576 像素）。文本输入包括用户指令。图像和自车运动历史（10Hz 下的 16 个路径点）还需附带相应的时间戳。请注意，该模型主要在此设定下进行训练，且仅在此设定下经过测试。

6.模型输出

输出类型： 文本、轨迹

输出格式：

文本：字符串（因果链推理轨迹）
轨迹：浮点值 (x, y, z), R_rot

输出参数：

文本：一维（1D）
轨迹：三维（3D）平移和九维（9D，3x3）旋转，多时间步

其他与输出相关的属性： 输出未来 6.4 秒的轨迹（10Hz 下的 64 个路径点），位置 (x, y, z) 和旋转矩阵 R_rot 均以自车坐标系表示。在内部，轨迹以一系列动态动作（加速度和曲率）序列表示，遵循鸟瞰图（BEV）空间中的单轮车模型。文本推理轨迹长度可变，用于描述驾驶决策及其因果因素。

我们的 AI 模型专为在 NVIDIA GPU 加速系统上运行而设计和/或优化。通过利用 NVIDIA 的硬件（例如 GPU 核心）和软件框架（例如 CUDA 库），相比纯 CPU 方案，该模型可实现更快的训练和推理速度。

7.运行环境配置

运行时引擎：

Python（最低版本：3.12.x）
PyTorch（最低版本：2.8）
Hugging Face Transformers（最低版本：4.57.1）

DeepSpeed（最低版本：0.17.4）

详见：pyproject.toml

安装uv后，运行uv sync --active，自动读取pyproject.toml并进行安装

[project]
name = "alpamayo_r1"
version = "0.1.0"
requires-python = "==3.12.*"
dependencies = [
  "accelerate>=1.12.0",
  "av>=16.0.1",
  "einops>=0.8.1",
  "hydra-colorlog>=1.2.0",
  "hydra-core>=1.3.2",
  "pandas>=2.3.3",
  "physical_ai_av>=0.1.0",
  "pillow>=12.0.0",
  "torch==2.8.0",
  "torchvision>=0.23.0",
  "transformers==4.57.1",
  "flash-attn>=2.8.3",
]

[build-system]
requires = ["uv_build>=0.9.7,<0.10.0"]
build-backend = "uv_build"

[dependency-groups]
dev = [
  "matplotlib>=3.10.7",
  "mediapy>=1.2.4",
  "ipykernel>=6.29.3",
  "ipywidgets>=8.1.8",
]

[tool.uv]
no-build-isolation-package = ["flash-attn"]

[tool.ruff]
line-length = 100

支持的硬件微架构兼容性：

具备足够内存以加载 100 亿参数模型的 NVIDIA GPU（至少 1 块 GPU，显存不低于 24GB）

首选/支持的操作系统：

Linux（我们未在其他操作系统上进行测试）

将基础模型和微调模型集成到 AI 系统中，需要使用特定用例的数据进行额外测试，以确保安全有效的部署。根据 V 模型方法论，在部署前，必须在单元级和系统级进行迭代测试与验证，以降低风险、满足技术和功能需求，并确保符合安全与伦理标准。

8.训练、测试与评估数据集

（1）训练数据集：

Alpamayo 1 的训练数据混合了因果链（CoC）推理轨迹、Cosmos-Reason 物理 AI 数据集以及 NVIDIA 内部专有的自动驾驶数据。

数据模态：

图像（多摄像头）
文本（推理轨迹）
其他：轨迹数据（自运动、未来路径点）

图像训练数据规模： 超过 10 亿张图像（来自 80,000 小时的多摄像头驾驶数据）

文本训练数据规模： 少于 10 亿个 token（70 万条 CoC 推理轨迹加上 Cosmos-Reason 训练数据）

视频训练数据规模： 10,000 至 100 万小时（80,000 小时）

非音频、图像、文本训练数据规模： 轨迹数据：以 10Hz 采样率采集的 80,000 小时数据

各数据集的数据采集方法： 混合方式：自动/传感器（摄像头和车辆传感器）、合成数据（VLM 生成的推理）

各数据集的标注方法： 混合方式：人工（结构化 CoC 标注）、自动化（基于 VLM 的自动标注）、自动/传感器（轨迹和自运动）

特性： 该数据集包含 80,000 小时的多摄像头驾驶视频，附带相应的自运动和轨迹标注。
其中包括 70 万条因果链（Chain-of-Causation, CoC）推理轨迹，提供基于决策、因果关联的驾驶行为解释。
内容包括来自车辆传感器（摄像头、IMU 和 GPS）的机器生成数据以及合成推理轨迹。
CoC 标注使用英语，并采用结构化格式，将驾驶决策与因果因素关联起来。
传感器包括 RGB 摄像头（每辆车 2–6 个）、惯性测量单元（IMU）和 GPS。

（2）测试数据集：

链接： 专有的自动驾驶测试数据集、闭环仿真、实车道路测试。

各数据集的数据采集方法： 混合方式：自动/传感器（真实世界驾驶数据）、合成数据（仿真场景）

各数据集的标注方法： 混合方式：自动/传感器、人工（真值验证）

特性： 该数据集涵盖多摄像头驾驶场景，特别关注罕见的长尾事件。包括复杂交叉路口、加塞、行人交互以及恶劣天气条件等具有挑战性的案例。数据由 RGB 摄像头和车辆传感器采集。

（3）评估数据集：

链接： 同测试数据集。

各数据集的数据采集方法： 混合方式：自动/传感器（真实世界驾驶数据）、合成数据（仿真场景）

各数据集的标注方法： 混合方式：自动/传感器、人工（真值验证）

特性： 评估重点在于罕见的长尾场景，包括复杂交叉路口、行人过街、车辆加塞，以及具有挑战性的天气和光照条件。多摄像头传感器数据由 RGB 摄像头采集。

定量评估基准：

在 PhysicalAI-AV-NuRec 数据集上使用 AlpaSim 进行闭环评估：AlpaSim 得分为 0.72。
在 PhysicalAI-AV 数据集上进行开环评估：6.4 秒预测的 minADE_6 为 0.85 米。
https://www.modelscope.cn/datasets/nv-community/PhysicalAI-Autonomous-Vehicles-NuRec（约4.5 TB）
https://www.modelscope.cn/datasets/nv-community/PhysicalAI-Autonomous-Vehicles（100TB）

9.推理

加速引擎： PyTorch、Hugging Face Transformers

测试硬件：

最低配置：1 块 GPU，显存 24GB 以上（例如 NVIDIA RTX 3090、RTX 3090 Ti、RTX 4090、A5000 或同等性能设备）
已测试平台：NVIDIA H100

有关模型推理的脚本，请参阅官方的代码仓库。