具身智能的一些概念

1 从传统控制到具身大模型

具身系统的基本闭环：
在这里插入图片描述
传统的机器人依赖运动规则，规划器和策略，因此在专门的场景中任务会比较稳定，但很难做到迁移到别的场景中，泛化能力弱，而且对于自然语言的处理能力也不行。
大模型赋能具身之后，感知、理解、规划和动作之间高度分散的模块，开始到统一框架当中，不再局限在控制器和规划器中，开始聚焦于模型范式。

2 VLA

VLA 是 Vision-Language-Action 的缩写，就是把视觉-语言-动作放到一个统一的框架当中，直接从我看到什么，被要求做什么——>下一步我该怎么做。

给模型图像和文本指令，加上机器人的自身状态，直接预测下一步的动作或者动作序列。

VLA同时解决3件事

从图像视频中提取与任务有关的环境信息
理解语言中的目标和约束
综合前两者，变成可执行的动作表示

2.1 VLA工作方式

在这里插入图片描述
把”看，听懂，动起来“放在同一个训练，推理框架之下。
优点：

适合语言驱动的机器人操作任务，更符合人类语境下的操作
从多任务示范数据中学习相对通用的技能表示。
VLA把原本的分散问题压缩成一个范式

缺点：

对数据分布比较敏感，训练中见的多的数据学的快，分布外OOD数据就容易出错。
在长时序任务会积累误差，一步动作偏差会影响后续步骤
模型能从图像中学到信息，但是对三维空间结构，物理约束，接触关系的理解能力不够。

因此探索世界模型，显示空间表示以及规划机制
在这里插入图片描述
OpenVLA 官方项目页
如果把这张 OpenVLA 架构图当成一张“教学图”来读，最重要的不是记住每个模块的名字，而是看清它的数据流。图的左侧是输入：上面是一张场景图像，下面是一句自然语言指令，例如“把茄子放进碗里”。中间是模型主体，底层可以看到 DinoV2 和 SigLIP 两个视觉模块，它们负责从图像中抽取不同类型的视觉特征；这些视觉特征经过中间的 MLP Projector 投影后，被组织成可以送入 Llama 2 7B 的表示。与此同时，语言指令经过 tokenizer 也被编码成语言 token。最终，视觉 token 和语言 token 在同一个大语言模型框架中共同参与推理。

图中最值得注意的是右上角的 Action De-Tokenizer。这意味着 OpenVLA 并不是让 Llama 2 直接输出电机控制信号，而是先把动作表示成一种可被模型预测的 token，再把这些 token 反解为机器人的 7 维动作，例如位置增量、角度增量和夹爪开合等。换句话说，这张图非常清楚地展示了 VLA 的核心思想：先把“看见的”和“听见的”统一成模型可以处理的 token，再把模型输出翻译回机器人可以执行的动作。

图中标出的 1-2-3 也很适合拿来帮助初学者理解整个流程。1 对应视觉编码阶段，也就是从图像中提取语义与空间特征；2 对应特征对齐阶段，也就是把视觉信息映射到语言模型可接受的表示空间；3 对应统一推理阶段，也就是让视觉和语言在同一个主干模型中共同决定下一步动作。这正是“VLA 为什么会被叫做视觉-语言-动作一体化模型”的最好说明。

3 世界模型

VLA 更强调“看到指令后直接出动作”，世界模型（World Model）更强调“先在内部形成对环境变化的预测，再据此规划动作”。

现在内部构建一个对环境变化的预测机制，在根据此环境规划动作

通俗的说，就是现在脑内演练一遍，再动作

3.1 世界模型构建关系

当前的环境状态
某个动作执行后环境变化
在若干个可能的演化中，哪条路径更接近目标

也就是说，在真正动作前，现在内部想一遍接下来发生的事情，一个内部带模拟器的决策系统。

3.2 世界模型示意

在这里插入图片描述

3.3 世界模型价值

模拟真实世界的操作，真实世界是能够持续演化的系统，其中的任务都是需要分步实现的，目标物会移动，动作顺序会改变后续状态，多步任务中的早期错误还会不断放大，只依赖看到什么就输出什么，很容易出错。世界模型价值就在于，适合处理这种“动作会改变世界”的问题。把世界模型理解为具身智能从“反应式系统”迈向“规划式系统”的一个关键方向。

4 VLA 和世界模型对比

在这里插入图片描述
会在一个统一系统里同时使用端到端动作预测和内部世界建模。换句话说，VLA 与世界模型并不是互相排斥的标签，而是可以互补的技术取向

参考：

https://github.com/datawhalechina/every-embodied/blob/main/16-%E4%B8%93%E9%A2%98%E7%BB%84%E9%98%9F%E5%AD%A6%E4%B9%A0/01-%E8%BE%BE%E6%91%A9%E9%99%A2%E7%BB%84%E9%98%9F%E5%AD%A6%E4%B9%A0/Task%2002_%E6%8A%80%E6%9C%AF%E9%80%8F%E8%A7%86.md