第一代（RT-1）：从机器人数据学习，任务特定第

VLA机器人革命：解析当下10篇最关键的视觉-语言-动作模型论文

概览

2024-2026年，机器人领域正经历一场范式转换：从传统的任务特定编程转向视觉-语言-动作（Vision-Language-Action, VLA）模型。这些模型将视觉感知、自然语言理解和动作执行统一在单一框架中，让机器人能够像人类一样理解指令、推理场景并执行复杂操作。

本文精选5篇最fundamental的基础性论文和5篇热度最高的前沿论文，深入剖析VLA领域的核心思想、技术演进和未来方向。这些论文代表了从Google DeepMind、NVIDIA、斯坦福、Physical Intelligence等顶尖机构的最新突破，涵盖了从单臂操作到双臂人形机器人、从模拟环境到真实家庭场景的全方位进展。

Part I: 五篇Fundamental基础性论文

这些论文奠定了VLA领域的理论基础和技术范式，是理解整个领域发展脉络的关键。

1. RT-2: New Model Translates Vision and Language into Action

发表机构：Google DeepMind
时间：2023年7月
论文链接：Google DeepMind Blog

RT-2 Robotics Transformer

1) 要解决什么问题

传统机器人策略模型只能从有限的机器人演示数据中学习，导致泛化能力弱、无法处理新物体和场景。如何让机器人像人类一样，利用互联网海量的视觉-语言知识来理解世界并执行操作？

2) 解决思路与已有方法的不同

核心创新：RT-2将大规模视觉-语言模型（VLM）转化为视觉-语言-动作（VLA）模型。它基于PaLM-E和PaLI-X等预训练VLM，通过联合训练的方式，在互联网规模的视觉-语言数据和真实机器人数据上进行共同微调。

与已有方法的差异：

RT-1：仅从机器人演示数据学习，泛化能力受限于数据集覆盖范围
RT-2：继承了VLM的语义理解能力，能够执行训练数据中从未出现的指令（如"把能当即兴锤子的东西递给我"→抓取石头）

技术实现：将机器人动作表示为文本tokens，使VLM的decoder可以同时输出语言和动作序列。这种统一表示让模型能在vision-language任务和robot control任务间共享知识。

3) 创新点的直觉 & Why it helps

直觉：人类学习新技能时，不需要亲自尝试每一个物体——我们通过观察图片、阅读文字积累的常识就能推理出"哪些物体适合某个任务"。RT-2把这种能力赋予了机器人。

为什么有效：

常识推理：VLM预训练让模型理解物体属性（坚硬、柔软、可食用等），支持零样本泛化
语义理解：支持抽象指令（“把垃圾扔掉”）和多步推理（chain-of-thought）
数据效率：无需为每个新物体采集机器人数据，大幅降低训练成本

4) 可能的价值

学术价值：首次证明互联网数据能有效迁移到机器人控制，开创VLA范式
工业价值：降低机器人部署门槛，单一模型支持700+任务，适用于仓储、家庭服务等场景
社会价值：推动通用机器人助手的实现，缓解劳动力短缺（全球预计超5000万人）

2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models

发表机构：21所机构联合（Google DeepMind领导）
时间：2023年10月
论文链接：arXiv:2310.08864

Open X-Embodiment Dataset

1) 要解决什么问题

不同机器人平台（单臂、双臂、四足等）的数据格式各异、无法共享，导致每个新机器人都需要从零开始训练。如何打破"数据孤岛"，让一个模型能控制多种机器人形态？

2) 解决思路与已有方法的不同

核心贡献：构建了Open X-Embodiment数据集，包含来自22种机器人形态的100万+真实轨迹、527种技能、160,266个任务，并提出RT-X系列模型（RT-1-X和RT-2-X）实现跨embodiment的正迁移。

技术创新：

统一数据格式：采用RLDS格式，支持不同动作空间、多模态输入（RGB、深度、点云）
动作空间标准化：将不同机器人的动作统一映射到7维end-effector控制（位置delta、旋转、夹爪）+ 256 bins离散化
混合训练：RT-2-X在机器人数据和原始VLM数据上1:1比例联合训练

3) 创新点的直觉 & Why it helps

直觉：就像人类驾驶不同品牌的汽车时，核心的"转向-加速-刹车"逻辑是通用的，只是操作界面略有差异。RT-X通过标准化动作空间，让模型学习任务的本质而非特定硬件的quirks。

为什么有效：

数据规模：100万轨迹的规模让模型看到足够的任务-物体-场景组合
多样性红利：在A机器人上学到的"抓取"知识能迁移到B机器人，提升样本效率
统一架构：证明Transformer架构足够灵活，能适应不同embodiment

4) 可能的价值

学术价值：确立了机器人基础模型的数据集标准，催生OpenVLA等后续工作
工业价值：降低新机器人平台的训练成本，支持快速定制化部署
开放生态：22机构合作模式推动社区数据共享，加速领域整体进步

3. OpenVLA: An Open-Source Vision-Language-Action Model

发表机构：斯坦福大学、UC Berkeley、Physical Intelligence
时间：2024年6月
论文链接：arXiv:2406.09246

OpenVLA Architecture

1) 要解决什么问题

RT-2等模型虽强大但闭源且参数量巨大（55B），限制了学术界和初创公司的使用。如何构建一个开源、高效、性能SOTA的VLA模型，让更多人能在此基础上创新？

2) 解决思路与已有方法的不同

核心架构：

Vision Encoder：融合DINOv2（自监督学习的丰富特征）+ SigLIP（语言对齐的语义特征）
Language Model：Llama 2 7B作为backbone
Action Decoder：将动作离散化为256 bins，视为text token预测问题

训练策略：

基于Prismatic-7B VLM进行微调
使用Open X-Embodiment数据集的970k轨迹
64张A100 GPU训练15天

与闭源模型的差异：

参数效率：7B参数量 vs RT-2-X的55B，推理速度快7倍
性能超越：在29个任务上成功率比RT-2-X高16.5%（绝对值）
LoRA微调：仅需调整1.4%参数即可适配新任务，支持消费级GPU

3) 创新点的直觉 & Why it helps

直觉：不是"越大越好"，而是"精准融合"。DINOv2捕捉物体的视觉细节，SigLIP理解语义意图，Llama 2整合推理能力——三者协同优于单纯堆参数。

为什么有效：

双视觉编码器：DINOv2的局部特征 + SigLIP的全局语义 = 更robust的场景理解
动作离散化：将连续控制转化为token预测，复用LLM强大的序列建模能力
开源生态：社区可基于OpenVLA快速迭代，如4-bit量化、更强的vision planning

4) 可能的价值

学术价值：开源权重（permissive license）加速研究，成为VLA领域的"BERT时刻"
教育价值：7B规模让学生和小团队也能实验VLA，降低入门门槛
商业价值：初创公司可基于OpenVLA快速构建垂直领域机器人（如餐饮、物流）

4. 3D Diffusion Policy (DP3)

发表机构：MIT、清华大学、上海交通大学
时间：2023年12月
论文链接：CoRL 2025

3D Diffusion Policy

1) 要解决什么问题

2D图像缺乏深度信息，导致机器人难以理解空间关系（物体遮挡、相对位置等），且对相机视角变化敏感。如何让策略模型具备3D空间推理能力，同时保持高样本效率？

2) 解决思路与已有方法的不同

核心创新：将3D点云表示与**扩散策略（Diffusion Policy）**结合。

技术实现：

输入：稀疏采样的单视角点云（非密集点云，计算高效）
编码器：轻量级Point Transformer提取3D特征
动作生成：扩散模型以3D表示为条件，迭代去噪生成动作序列

与2D方法的差异：

2D CNN/ViT：只能隐式推断深度，易受视角、光照影响
DP3：显式建模3D几何，泛化到新视角、新物体摆放

3) 创新点的直觉 & Why it helps

直觉：人类看到桌上的杯子时，大脑自动构建3D心理模型——即使换个角度看，仍知道杯子在哪、如何抓取。DP3让机器人也拥有这种3D"心智地图"。

为什么有效：

几何不变性：3D点云表示对旋转、平移具有天然不变性
遮挡鲁棒：稀疏点云仍保留关键几何信息，不像2D图像完全丢失被遮挡部分
扩散模型优势：多模态动作分布（一个场景可能有多种合理抓取方式）

实验结果：

72个仿真任务，仅用10个演示，成功率比baseline高24.2%
4个真实任务，40个演示，成功率85%，泛化到新视角、新物体实例

4) 可能的价值

学术价值：证明3D表示对机器人策略的关键性，影响后续SpatialVLA等工作
工业价值：适用于仓储拣选、装配等需要精准空间定位的场景
技术价值：点云编码+扩散模型的组合成为新范式

5. Octo: An Open-Source Generalist Robot Policy

发表机构：UC Berkeley、CMU、Google DeepMind
时间：2024年1月
论文链接：Octo Models

Octo Architecture

1) 要解决什么问题

现有VLA模型往往针对特定机器人硬件设计，迁移到新传感器配置（如增加一个相机、换灵巧手）时需要重新训练。如何设计一个模块化、易于微调的泛化机器人策略？

2) 解决思路与已有方法的不同

核心设计：Transformer-based扩散策略 + 模块化注意力机制。

架构特点：

灵活输入：支持语言指令或目标图像、观察历史、多相机
扩散解码：生成连续动作分布（而非离散化）
模块化微调：针对新传感器/动作空间，只需调整对应模块

两个版本：

Octo-Small：27M参数，快速推理
Octo-Base：93M参数，更强性能

训练数据：Open X-Embodiment数据集的800k episodes

3) 创新点的直觉 & Why it helps

直觉：像搭积木一样构建机器人策略——视觉模块、语言模块、动作模块可以独立替换或升级，而不影响整体框架。

为什么有效：

模块化注意力：不同模态（vision, language, proprioception）通过独立注意力头处理，再融合
高效微调：新机器人只需微调action decoder和部分transformer层，无需从头训练
扩散策略：连续动作空间建模，适合精细操作

适用场景：

研究者快速测试新硬件配置
工业界从Octo-Small原型快速迭代到Octo-Base生产版本

4) 可能的价值

学术价值：提供灵活的研究平台，降低实验成本
工程价值：模块化设计成为后续VLA架构的设计参考
开源贡献：GitHub代码和预训练权重推动社区快速复现和改进

Part II: 五篇热度最高的前沿论文

这些论文代表了2024-2026年VLA领域的最新突破，引领未来发展方向。

6. NVIDIA Isaac GR00T N1: Open Foundation Model for Humanoid Robots

发表机构：NVIDIA
时间：2025年3月
论文链接：NVIDIA Research

NVIDIA GR00T N1

1) 要解决什么问题

人形机器人需要全身协调控制（躯干、双臂、手腕、手指），传统VLA难以处理如此高维的动作空间，且推理速度不足以支持实时控制。如何构建快速、灵巧、全身控制的人形机器人基础模型？

2) 解决思路与已有方法的不同

核心架构：双系统设计（System 1 + System 2）

System 2（慢思考）：

基于NVIDIA-Eagle + SmolLM-1.7B的VLM
处理视觉和语言，生成高层规划（latent cognitive representations）
理解"整理房间"这类抽象任务，分解为子目标

System 1（快反应）：

Diffusion Transformer动作模型
接收System 2的latent vector，生成高频连续控制指令
控制上半身所有关节（肩膀、手肘、手腕、手指）

训练数据混合：

第一视角人类视频（学习人机交互逻辑）
真实机器人轨迹（弥合sim-to-real gap）
GPU加速仿真数据（提供无限数据）
Latent Action Training（从无标注视频学习）

3) 创新点的直觉 & Why it helps

直觉：人类行为也是"双系统"——System 2负责思考"我要做什么"，System 1负责执行"手怎么动"。GR00T N1模仿这种认知架构。

为什么有效：

解耦思考与执行：慢速VLM专注高层推理，快速diffusion专注低层控制，各司其职
实时性：System 1以7Hz生成动作块，配合底层控制器实现平滑执行
全身协调：首个支持整个上半身连续控制的VLA（手腕姿态+手指位置）

真实案例：1X人形机器人在陌生家庭自主整理房间（GTC 2025演示）

4) 可能的价值

工业价值：应对全球5000万+劳动力短缺，适用于物料搬运、包装、检查
开源影响：开放权重（permissive license）加速全球人形机器人研发
社会价值：推动人形机器人从科幻走向现实，1X CEO称其为"伴侣而非工具"

7. VITRA: Scalable VLA Pretraining with Human Videos

发表机构：微软亚洲研究院
时间：2026年1月
论文链接：Microsoft Research

VITRA Method

1) 要解决什么问题

机器人训练数据稀缺且昂贵（需要遥操作设备、标注动作参数），而互联网上有海量人类操作视频。如何将非结构化的人类视频转化为机器人可用的训练数据？

2) 解决思路与已有方法的不同

核心方法：自动化重建管道

步骤：

3D手部运动重建：从人类视频中提取第一视角手部轨迹
VLA格式转换：将人手动作映射到与机器人数据一致的结构化格式
预训练VLA：在大规模人类视频上预训练（100万+episodes）
少样本微调：仅用1000+机器人遥操数据即可迁移到真实任务

与已有方法的差异：

传统方法：仅用机器人演示数据，规模受限于硬件和人力
VITRA：利用无限的人类视频资源，实现可扩展的预训练

3) 创新点的直觉 & Why it helps

直觉：人类视频就像"教科书"——虽然手和机械手构造不同，但"抓杯子把手"、"倒水"这些操作逻辑是通用的。VITRA让机器人通过观看人类视频学习这些逻辑。

为什么有效：

零样本预测：预训练模型在未见人手动作上展现更强预测能力
微调效率：仅1000条机器人数据，成功率从30-40%提升至70%+
泛化能力：面对训练中未见物体（新型保温杯、异形玩具），仍保持~70%成功率

实验任务：

随机位置抓取放置：成功率>80%
功能抓取（抓杯子把手）：70%+
倒水、扫地：70%+

4) 可能的价值

学术价值：开创VLA预训练新范式，证明人类视频的巨大潜力
数据价值：互联网视频成为"取之不尽"的训练资源
商业价值：大幅降低机器人训练成本，加速产品化进程

8. Physical Intelligence π0.5: VLA with Open-World Generalization

发表机构：Physical Intelligence
时间：2025年4月
论文链接：Physical Intelligence Blog

Physical Intelligence Robot

1) 要解决什么问题

现有VLA模型在训练环境内表现优异，但面对完全陌生的新家庭/新场景时失效。如何让机器人具备真正的"开放世界泛化能力"——在从未见过的环境中也能执行复杂任务？

2) 解决思路与已有方法的不同

核心策略：异构数据联合训练（Co-training on Heterogeneous Data）

数据来源：

多样环境：100+不同家庭/办公室环境的移动操作数据
多模态网络数据：问答、图像描述、物体检测
多embodiment数据：单臂机器人、无移动底座机器人的数据
语言指导演示：人类通过自然语言逐步指导机器人完成任务

架构设计：

基于π0 VLA（5B参数VLM + action expert）
支持高层语义推理（下一步做什么）和低层运动控制（关节指令）
Chain-of-Thought式推理：模型先输出高层文本动作（“pick up the pillow”），再生成低层连续动作

离散解码 + 连续Flow Matching：

离散pathway：推断高层动作
连续pathway：生成50-step (1秒) 动作chunk

3) 创新点的直觉 & Why it helps

直觉：就像人类进入陌生房间时，会调用已有的"整理经验"（知道枕头放床上、杯子放厨房），而不需要在每个房间都学一遍。π0.5通过在多样环境训练，学到任务的本质而非特定环境的memorization。

为什么有效：

语义理解：网络数据提供"哪些物体该放哪"的常识
任务结构：语言指导演示教会模型任务的高层结构（如整理床铺的步骤）
物理行为迁移：简单机器人的操作技能可迁移到复杂移动平台

缩放研究：在100个训练环境后，模型在新环境的性能接近"在测试环境直接训练"的baseline——证明泛化能力已接近上限。

4) 可能的价值

学术价值：首次系统性证明VLA的开放世界泛化能力
产品价值：支持"即买即用"的家庭服务机器人，无需针对每个家庭定制训练
未来方向：模型可从自主经验改进、在陌生情况主动寻求帮助

9. CoA-VLA: Chain-of-Affordance for Better Reasoning

发表机构：ICCV 2025
时间：2025年
论文链接：ICCV 2025 Paper

CoA-VLA Demo

1) 要解决什么问题

VLA模型虽能执行语言指令，但缺乏可供性推理（affordance reasoning）——不理解"哪里可以放物体"、“如何避开障碍”。如何让VLA具备类似人类的空间推理能力？

2) 解决思路与已有方法的不同

核心创新：Chain-of-Affordance（CoA）框架

设计思想：

语义识别：从自由文本指令中解析物体名称
空间定位：预测物体的2D位置（grounding）
可供性推理：推断无碰撞路径、可放置区域
双模态注入：将可供性知识转化为视觉可供性（图像标注）和文本可供性（语言描述），通过vision-language co-injection模块注入策略网络

与baseline的差异：

Vanilla VLA：直接从图像+指令生成动作，易碰撞、定位不准
CoA-VLA：显式建模空间约束，生成动作前先推理"哪里安全"

3) 创新点的直觉 & Why it helps

直觉：人类执行"把杯子放桌上"时，会自动排除"边缘易掉落"、"已有物体占据"的位置，选择"平坦、空闲"的区域。CoA-VLA让机器人也进行这种推理。

为什么有效：

精确性：空间grounding提高定位准确度
鲁棒性：碰撞检测避免失败操作
泛化性：识别未见物体姿态、新环境自由空间

实验结果：

超越OpenVLA成功率30.65%（绝对值）
模型参数更小、预训练数据更少，但性能更优

4) 可能的价值

学术价值：将推理（reasoning）引入VLA，启发后续工作
安全价值：降低机器人碰撞风险，适用于人机协作场景
工业价值：提高抓取成功率，减少生产线故障

10. WorldVLA: Autoregressive Action-World Model

发表机构：清华大学、上海交通大学
时间：2025年6月
论文链接：Literature Review

WorldVLA Concept

1) 要解决什么问题

传统VLA只预测动作，不理解"物理规律"——不知道"推物体会移动"、“倒水杯子会满”。如何让VLA具备物理世界建模能力，生成更符合物理直觉的动作？

2) 解决思路与已有方法的不同

核心架构：统一动作模型和世界模型

两个组件：

World Model（世界模型）：
- 预测未来图像（conditioned on 当前观察 + 动作）
- 学习环境物理规律
Action Model（动作模型）：
- 生成动作（conditioned on 视觉观察 + 语言指令）
- 利用世界模型的物理理解辅助视觉理解

训练策略：

联合优化：同时训练视频预测和动作预测
自回归框架：动作和图像token交错生成
Autoregressive Action Chunking：通过特殊attention mask，每个动作仅基于视觉输入（减少歧义）

3) 创新点的直觉 & Why it helps

直觉：人类学习新技能时，会在脑海中"预演"——想象"如果我这么做，会发生什么"。WorldVLA让机器人也拥有这种"心理模拟"能力。

为什么有效：

物理理解增强：世界模型提供环境动力学知识，动作模型生成更合理的动作
双向促进：
- 世界模型→动作模型：物理知识提升抓取成功率4%
- 动作模型→世界模型：行为理解降低FVD指标10%
Action Chunking：保持推理速度，多帧历史输入提升性能

实验发现：

有动作条件的世界模型优于纯视频预测模型（减少歧义）
使用2帧历史输入比单帧好

4) 可能的价值

学术价值：将world model引入VLA，开辟新研究方向
仿真价值：世界模型可用于策略训练的"梦境演练"（类似DreamerV3）
长期规划：理解物理规律支持多步任务推理

总结与未来展望

技术演进脉络

第一代（RT-1）：从机器人数据学习，任务特定
第二代（RT-2, RT-X）：融合互联网数据，跨embodiment泛化
第三代（OpenVLA, Octo）：开源基础模型，模块化设计
第四代（GR00T, π0.5）：双系统架构，开放世界泛化
未来方向（WorldVLA, CoA-VLA）：物理推理、可供性理解

核心挑战

数据问题：真实机器人数据昂贵（VITRA用人类视频缓解）
Sim-to-Real Gap：仿真数据难以完全迁移（GR00T混合真实+仿真数据）
实时性：高维动作空间推理速度慢（GR00T双系统、WorldVLA action chunking）
安全性：开放环境中的碰撞风险（CoA-VLA可供性推理）
长期规划：复杂任务需要多步推理（π0.5的chain-of-thought）

未来方向

更大规模预训练：利用全网视频（人类、动物、仿真）
自主学习：从失败经验中改进，减少人类监督
多模态感知：融合触觉（VTLA）、听觉（VLAS）
可解释性：理解VLA的推理过程，提高可信度
边缘部署：压缩模型至消费级硬件（4-bit量化）

结语

VLA模型正将机器人从"工具"转变为"智能体"。从Google DeepMind的RT-2奠基，到NVIDIA GR00T N1的人形机器人突破，再到微软VITRA的预训练新范式——这场革命才刚刚开始。

当机器人能像人类一样理解世界、推理任务、执行操作时，真正的通用机器人助手将不再是科幻。这10篇论文，正是通向未来的路标。

关键词：Vision-Language-Action, VLA模型, 机器人操作, 具身智能, 基础模型, 多模态学习, 迁移学习, 人形机器人

推荐阅读顺序：RT-2 → Open X-Embodiment → OpenVLA → 3D Diffusion Policy → Octo → GR00T N1 → VITRA → π0.5 → CoA-VLA → WorldVLA

第一代（RT-1）：从机器人数据学习，任务特定第

VLA机器人革命：解析当下10篇最关键的视觉-语言-动作模型论文

概览

Part I: 五篇Fundamental基础性论文

1. RT-2: New Model Translates Vision and Language into Action

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

3. OpenVLA: An Open-Source Vision-Language-Action Model

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

4. 3D Diffusion Policy (DP3)

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

5. Octo: An Open-Source Generalist Robot Policy

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

Part II: 五篇热度最高的前沿论文

6. NVIDIA Isaac GR00T N1: Open Foundation Model for Humanoid Robots

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

7. VITRA: Scalable VLA Pretraining with Human Videos

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

8. Physical Intelligence π0.5: VLA with Open-World Generalization

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

9. CoA-VLA: Chain-of-Affordance for Better Reasoning

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

10. WorldVLA: Autoregressive Action-World Model

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

总结与未来展望

技术演进脉络

核心挑战

未来方向

结语

相关阅读

本类排行

相关标签

本类推荐

栏目热点

猜你喜欢