网站首页 全球最实用的IT互联网站!

人工智能P2P分享Wind搜索发布信息网站地图标签大全

当前位置:诺佳网 > 人工智能 > 人形机器人 >

具身智能的一些概念

时间:2026-03-24 11:08

人气:

作者:admin

标签:

导读:一些概念的了解 garfield_sun06 魔珐星云开发社区...

1 从传统控制到具身大模型

具身系统的基本闭环:
在这里插入图片描述
传统的机器人依赖运动规则,规划器和策略,因此在专门的场景中任务会比较稳定,但很难做到迁移到别的场景中,泛化能力弱,而且对于自然语言的处理能力也不行。
大模型赋能具身之后,感知、理解、规划和动作之间高度分散的模块,开始到统一框架当中,不再局限在控制器和规划器中,开始聚焦于模型范式。

2 VLA

VLA 是 Vision-Language-Action 的缩写,就是把视觉-语言-动作放到一个统一的框架当中,直接从我看到什么,被要求做什么——>下一步我该怎么做。

给模型图像和文本指令,加上机器人的自身状态,直接预测下一步的动作或者动作序列。

VLA同时解决3件事

  1. 从图像视频中提取与任务有关的环境信息
  2. 理解语言中的目标和约束
  3. 综合前两者,变成可执行的动作表示
2.1 VLA工作方式

在这里插入图片描述
把”看,听懂,动起来“放在同一个训练,推理框架之下。
优点

  1. 适合语言驱动的机器人操作任务,更符合人类语境下的操作
  2. 从多任务示范数据中学习相对通用的技能表示。
    VLA把原本的分散问题压缩成一个范式

缺点

  1. 对数据分布比较敏感,训练中见的多的数据学的快,分布外OOD数据就容易出错。
  2. 在长时序任务会积累误差,一步动作偏差会影响后续步骤
  3. 模型能从图像中学到信息,但是对三维空间结构,物理约束,接触关系的理解能力不够。

因此探索世界模型,显示空间表示以及规划机制
在这里插入图片描述
OpenVLA 官方项目页
如果把这张 OpenVLA 架构图当成一张“教学图”来读,最重要的不是记住每个模块的名字,而是看清它的数据流。图的左侧是输入:上面是一张场景图像,下面是一句自然语言指令,例如“把茄子放进碗里”。中间是模型主体,底层可以看到 DinoV2 和 SigLIP 两个视觉模块,它们负责从图像中抽取不同类型的视觉特征;这些视觉特征经过中间的 MLP Projector 投影后,被组织成可以送入 Llama 2 7B 的表示。与此同时,语言指令经过 tokenizer 也被编码成语言 token。最终,视觉 token 和语言 token 在同一个大语言模型框架中共同参与推理。

图中最值得注意的是右上角的 Action De-Tokenizer。这意味着 OpenVLA 并不是让 Llama 2 直接输出电机控制信号,而是先把动作表示成一种可被模型预测的 token,再把这些 token 反解为机器人的 7 维动作,例如位置增量、角度增量和夹爪开合等。换句话说,这张图非常清楚地展示了 VLA 的核心思想:先把“看见的”和“听见的”统一成模型可以处理的 token,再把模型输出翻译回机器人可以执行的动作。

图中标出的 1-2-3 也很适合拿来帮助初学者理解整个流程。1 对应视觉编码阶段,也就是从图像中提取语义与空间特征;2 对应特征对齐阶段,也就是把视觉信息映射到语言模型可接受的表示空间;3 对应统一推理阶段,也就是让视觉和语言在同一个主干模型中共同决定下一步动作。这正是“VLA 为什么会被叫做视觉-语言-动作一体化模型”的最好说明。

3 世界模型

VLA 更强调“看到指令后直接出动作”,世界模型(World Model)更强调“先在内部形成对环境变化的预测,再据此规划动作”。

现在内部构建一个对环境变化的预测机制,在根据此环境规划动作

通俗的说,就是现在脑内演练一遍,再动作

3.1 世界模型构建关系
  1. 当前的环境状态
  2. 某个动作执行后环境变化
  3. 在若干个可能的演化中,哪条路径更接近目标

也就是说,在真正动作前,现在内部想一遍接下来发生的事情,一个内部带模拟器的决策系统。

3.2 世界模型示意

在这里插入图片描述

3.3 世界模型价值

模拟真实世界的操作,真实世界是能够持续演化的系统,其中的任务都是需要分步实现的,目标物会移动,动作顺序会改变后续状态,多步任务中的早期错误还会不断放大,只依赖看到什么就输出什么,很容易出错。世界模型价值就在于,适合处理这种“动作会改变世界”的问题。把世界模型理解为具身智能从“反应式系统”迈向“规划式系统”的一个关键方向。

4 VLA 和世界模型对比

在这里插入图片描述
会在一个统一系统里同时使用端到端动作预测和内部世界建模。换句话说,VLA 与世界模型并不是互相排斥的标签,而是可以互补的技术取向

参考:

https://github.com/datawhalechina/every-embodied/blob/main/16-%E4%B8%93%E9%A2%98%E7%BB%84%E9%98%9F%E5%AD%A6%E4%B9%A0/01-%E8%BE%BE%E6%91%A9%E9%99%A2%E7%BB%84%E9%98%9F%E5%AD%A6%E4%B9%A0/Task%2002_%E6%8A%80%E6%9C%AF%E9%80%8F%E8%A7%86.md

温馨提示:以上内容整理于网络,仅供参考,如果对您有帮助,留下您的阅读感言吧!
相关阅读
本类排行
相关标签
本类推荐

CPU | 内存 | 硬盘 | 显卡 | 显示器 | 主板 | 电源 | 键鼠 | 网站地图

Copyright © 2025-2035 诺佳网 版权所有 备案号:赣ICP备2025066733号
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。

关注微信