网站首页 全球最实用的IT互联网站!

人工智能P2P分享Wind搜索发布信息网站地图标签大全

当前位置:诺佳网 > 人工智能 > 自动驾驶 >

英伟达开源了Alpamayo-R1-10B模型,这是一个基于T

时间:2026-03-16 19:10

人气:

作者:admin

标签:

导读:英伟达开源了Alpamayo-R1-10B模型,这是一个基于Transformer架构的视觉语言动作(VLA)模型,专为自动驾驶场景设计,特别擅长处理罕见的长尾事件。该模型包含82亿参数的主干网络和23亿参数的...

英伟达开源VLA模型Alpamayo-R1-10B介绍

面向正在开发和评估用于自动驾驶场景(特别是处理罕见的长尾事件)的 VLA 模型

1.模型权重

https://www.modelscope.cn/models/nv-community/Alpamayo-R1-10B

2.模型推理代码

GitHub: https://github.com/NVlabs/alpamayo

3.参考文献

chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/file:///C:/Users/admin/Desktop/25a54ecc-762e-417a-b93a-563dfb3e7b01.pdf

4.模型架构:

(1)架构类型: Transformer

(2)网络架构:

基于 Cosmos-Reason 的 VLA 模型,并采用基于扩散模型的轨迹解码器。

本模型基于以下技术开发: Cosmos-Reason(VLM 主干网络)配合基于扩散模型的动作解码器

(3)模型参数数量:

  • 主干网络:82 亿参数
  • 动作专家模块:23 亿参数

5.模型输入:

输入类型: 图像/视频、文本、自车运动历史(Egomotion History)

输入格式:

  • 图像:红、绿、蓝(RGB)
  • 文本:字符串
  • 自车运动历史:浮点值 (x, y, z), R_rot

输入参数:

  • 图像:二维(2D)、多摄像头、多时间步
  • 文本:一维(1D)
  • 自车运动历史:三维(3D)平移和九维(9D,3x3)旋转,多时间步

其他与输入相关的属性: 多摄像头图像(4 个摄像头:前广角、前长焦、左交叉、右交叉),以 10Hz 频率采集,包含 0.4 秒历史窗口(每个摄像头 4 帧),图像分辨率为 1080x1920 像素(处理器会将其下采样至 320x576 像素)。文本输入包括用户指令。图像和自车运动历史(10Hz 下的 16 个路径点)还需附带相应的时间戳。 请注意,该模型主要在此设定下进行训练,且仅在此设定下经过测试。

6.模型输出

输出类型: 文本、轨迹

输出格式:

  • 文本:字符串(因果链推理轨迹)
  • 轨迹:浮点值 (x, y, z), R_rot

输出参数:

  • 文本:一维(1D)
  • 轨迹:三维(3D)平移和九维(9D,3x3)旋转,多时间步

其他与输出相关的属性: 输出未来 6.4 秒的轨迹(10Hz 下的 64 个路径点),位置 (x, y, z) 和旋转矩阵 R_rot 均以自车坐标系表示。 在内部,轨迹以一系列动态动作(加速度和曲率)序列表示,遵循鸟瞰图(BEV)空间中的单轮车模型。 文本推理轨迹长度可变,用于描述驾驶决策及其因果因素。

我们的 AI 模型专为在 NVIDIA GPU 加速系统上运行而设计和/或优化。通过利用 NVIDIA 的硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),相比纯 CPU 方案,该模型可实现更快的训练和推理速度。

7.运行环境配置

运行时引擎:

  • Python(最低版本:3.12.x)

  • PyTorch(最低版本:2.8)

  • Hugging Face Transformers(最低版本:4.57.1)

  • DeepSpeed(最低版本:0.17.4)

    详见:pyproject.toml

    安装uv后,运行uv sync --active,自动读取pyproject.toml并进行安装

    [project]
    name = "alpamayo_r1"
    version = "0.1.0"
    requires-python = "==3.12.*"
    dependencies = [
      "accelerate>=1.12.0",
      "av>=16.0.1",
      "einops>=0.8.1",
      "hydra-colorlog>=1.2.0",
      "hydra-core>=1.3.2",
      "pandas>=2.3.3",
      "physical_ai_av>=0.1.0",
      "pillow>=12.0.0",
      "torch==2.8.0",
      "torchvision>=0.23.0",
      "transformers==4.57.1",
      "flash-attn>=2.8.3",
    ]
    
    [build-system]
    requires = ["uv_build>=0.9.7,<0.10.0"]
    build-backend = "uv_build"
    
    [dependency-groups]
    dev = [
      "matplotlib>=3.10.7",
      "mediapy>=1.2.4",
      "ipykernel>=6.29.3",
      "ipywidgets>=8.1.8",
    ]
    
    [tool.uv]
    no-build-isolation-package = ["flash-attn"]
    
    [tool.ruff]
    line-length = 100
    

支持的硬件微架构兼容性:

  • 具备足够内存以加载 100 亿参数模型的 NVIDIA GPU(至少 1 块 GPU,显存不低于 24GB)

首选/支持的操作系统:

  • Linux(我们未在其他操作系统上进行测试)

将基础模型和微调模型集成到 AI 系统中,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。根据 V 模型方法论,在部署前,必须在单元级和系统级进行迭代测试与验证,以降低风险、满足技术和功能需求,并确保符合安全与伦理标准。

8.训练、测试与评估数据集

(1)训练数据集:

Alpamayo 1 的训练数据混合了因果链(CoC)推理轨迹、Cosmos-Reason 物理 AI 数据集以及 NVIDIA 内部专有的自动驾驶数据。

数据模态:

  • 图像(多摄像头)
  • 文本(推理轨迹)
  • 其他:轨迹数据(自运动、未来路径点)

图像训练数据规模: 超过 10 亿张图像(来自 80,000 小时的多摄像头驾驶数据)

文本训练数据规模: 少于 10 亿个 token(70 万条 CoC 推理轨迹加上 Cosmos-Reason 训练数据)

视频训练数据规模: 10,000 至 100 万小时(80,000 小时)

非音频、图像、文本训练数据规模: 轨迹数据:以 10Hz 采样率采集的 80,000 小时数据

各数据集的数据采集方法: 混合方式:自动/传感器(摄像头和车辆传感器)、合成数据(VLM 生成的推理)

各数据集的标注方法: 混合方式:人工(结构化 CoC 标注)、自动化(基于 VLM 的自动标注)、自动/传感器(轨迹和自运动)

特性: 该数据集包含 80,000 小时的多摄像头驾驶视频,附带相应的自运动和轨迹标注。
其中包括 70 万条因果链(Chain-of-Causation, CoC)推理轨迹,提供基于决策、因果关联的驾驶行为解释。
内容包括来自车辆传感器(摄像头、IMU 和 GPS)的机器生成数据以及合成推理轨迹。
CoC 标注使用英语,并采用结构化格式,将驾驶决策与因果因素关联起来。
传感器包括 RGB 摄像头(每辆车 2–6 个)、惯性测量单元(IMU)和 GPS。

(2)测试数据集:

链接: 专有的自动驾驶测试数据集、闭环仿真、实车道路测试。

各数据集的数据采集方法: 混合方式:自动/传感器(真实世界驾驶数据)、合成数据(仿真场景)

各数据集的标注方法: 混合方式:自动/传感器、人工(真值验证)

特性: 该数据集涵盖多摄像头驾驶场景,特别关注罕见的长尾事件。包括复杂交叉路口、加塞、行人交互以及恶劣天气条件等具有挑战性的案例。数据由 RGB 摄像头和车辆传感器采集。

(3)评估数据集:

链接: 同测试数据集。

各数据集的数据采集方法: 混合方式:自动/传感器(真实世界驾驶数据)、合成数据(仿真场景)

各数据集的标注方法: 混合方式:自动/传感器、人工(真值验证)

特性: 评估重点在于罕见的长尾场景,包括复杂交叉路口、行人过街、车辆加塞,以及具有挑战性的天气和光照条件。多摄像头传感器数据由 RGB 摄像头采集。

定量评估基准:

  • PhysicalAI-AV-NuRec 数据集 上使用 AlpaSim 进行闭环评估:AlpaSim 得分为 0.72。
  • PhysicalAI-AV 数据集 上进行开环评估:6.4 秒预测的 minADE_6 为 0.85 米。
  • https://www.modelscope.cn/datasets/nv-community/PhysicalAI-Autonomous-Vehicles-NuRec(约4.5 TB)
  • https://www.modelscope.cn/datasets/nv-community/PhysicalAI-Autonomous-Vehicles(100TB)

9.推理

加速引擎: PyTorch、Hugging Face Transformers

测试硬件:

  • 最低配置:1 块 GPU,显存 24GB 以上(例如 NVIDIA RTX 3090、RTX 3090 Ti、RTX 4090、A5000 或同等性能设备)
  • 已测试平台:NVIDIA H100

有关模型推理的脚本,请参阅官方的 代码仓库

温馨提示:以上内容整理于网络,仅供参考,如果对您有帮助,留下您的阅读感言吧!
相关阅读
本类排行
相关标签
本类推荐

CPU | 内存 | 硬盘 | 显卡 | 显示器 | 主板 | 电源 | 键鼠 | 网站地图

Copyright © 2025-2035 诺佳网 版权所有 备案号:赣ICP备2025066733号
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。

关注微信