时间:2026-03-24 11:08
人气:
作者:admin
具身系统的基本闭环:
传统的机器人依赖运动规则,规划器和策略,因此在专门的场景中任务会比较稳定,但很难做到迁移到别的场景中,泛化能力弱,而且对于自然语言的处理能力也不行。
大模型赋能具身之后,感知、理解、规划和动作之间高度分散的模块,开始到统一框架当中,不再局限在控制器和规划器中,开始聚焦于模型范式。
VLA 是 Vision-Language-Action 的缩写,就是把视觉-语言-动作放到一个统一的框架当中,直接从我看到什么,被要求做什么——>下一步我该怎么做。
给模型图像和文本指令,加上机器人的自身状态,直接预测下一步的动作或者动作序列。
VLA同时解决3件事

把”看,听懂,动起来“放在同一个训练,推理框架之下。
优点:
缺点:
因此探索世界模型,显示空间表示以及规划机制
OpenVLA 官方项目页
如果把这张 OpenVLA 架构图当成一张“教学图”来读,最重要的不是记住每个模块的名字,而是看清它的数据流。图的左侧是输入:上面是一张场景图像,下面是一句自然语言指令,例如“把茄子放进碗里”。中间是模型主体,底层可以看到 DinoV2 和 SigLIP 两个视觉模块,它们负责从图像中抽取不同类型的视觉特征;这些视觉特征经过中间的 MLP Projector 投影后,被组织成可以送入 Llama 2 7B 的表示。与此同时,语言指令经过 tokenizer 也被编码成语言 token。最终,视觉 token 和语言 token 在同一个大语言模型框架中共同参与推理。
图中最值得注意的是右上角的 Action De-Tokenizer。这意味着 OpenVLA 并不是让 Llama 2 直接输出电机控制信号,而是先把动作表示成一种可被模型预测的 token,再把这些 token 反解为机器人的 7 维动作,例如位置增量、角度增量和夹爪开合等。换句话说,这张图非常清楚地展示了 VLA 的核心思想:先把“看见的”和“听见的”统一成模型可以处理的 token,再把模型输出翻译回机器人可以执行的动作。
图中标出的 1-2-3 也很适合拿来帮助初学者理解整个流程。1 对应视觉编码阶段,也就是从图像中提取语义与空间特征;2 对应特征对齐阶段,也就是把视觉信息映射到语言模型可接受的表示空间;3 对应统一推理阶段,也就是让视觉和语言在同一个主干模型中共同决定下一步动作。这正是“VLA 为什么会被叫做视觉-语言-动作一体化模型”的最好说明。
VLA 更强调“看到指令后直接出动作”,世界模型(World Model)更强调“先在内部形成对环境变化的预测,再据此规划动作”。
现在内部构建一个对环境变化的预测机制,在根据此环境规划动作
通俗的说,就是现在脑内演练一遍,再动作
也就是说,在真正动作前,现在内部想一遍接下来发生的事情,一个内部带模拟器的决策系统。

模拟真实世界的操作,真实世界是能够持续演化的系统,其中的任务都是需要分步实现的,目标物会移动,动作顺序会改变后续状态,多步任务中的早期错误还会不断放大,只依赖看到什么就输出什么,很容易出错。世界模型价值就在于,适合处理这种“动作会改变世界”的问题。把世界模型理解为具身智能从“反应式系统”迈向“规划式系统”的一个关键方向。

会在一个统一系统里同时使用端到端动作预测和内部世界建模。换句话说,VLA 与世界模型并不是互相排斥的标签,而是可以互补的技术取向
https://github.com/datawhalechina/every-embodied/blob/main/16-%E4%B8%93%E9%A2%98%E7%BB%84%E9%98%9F%E5%AD%A6%E4%B9%A0/01-%E8%BE%BE%E6%91%A9%E9%99%A2%E7%BB%84%E9%98%9F%E5%AD%A6%E4%B9%A0/Task%2002_%E6%8A%80%E6%9C%AF%E9%80%8F%E8%A7%86.md