网站首页 全球最实用的IT互联网站!

人工智能P2P分享Wind搜索发布信息网站地图标签大全

当前位置:诺佳网 > 人工智能 > AI通用技术 >

记录每天的学习内容2026.3.23--简单了解VLA中的语义

时间:2026-03-23 17:52

人气:

作者:admin

标签:

导读:latent 是去除冗余后保留语义结构的表示空间VLA = 在语义空间中,通过学习动力学与动作变量,实现对未来状态的可控生成(完) 101%87 2048 AI社区...

学习过程文档:VLA中的 Action、Latent 与 World Model 机制


一、学习目标(今日实际完成)

在有限时间内,建立以下最小认知闭环:

  • 理解 VLM 在 VLA 中的作用

  • 区分 action / latent action / latent state

  • 掌握 world model 的动力学本质

  • 明确 diffusion 与 world model 的关系(非继承)


二、核心概念梳理

1. VLM(Vision-Language Model)

定义:

将视觉与语言映射到统一语义空间的模型

形式化表示:

[ z = f(image, text) ]

作用:

  • 提供语义理解(perception + reasoning)

  • 输出统一的 latent 表示


2. VLA整体结构(关键框架)

image + text
    ↓
VLM(语义理解)
    ↓
latent state z_t
    ↓
action / latent action u_t
    ↓
world model(状态转移)
    ↓
z_{t+1}

三、Action 表达机制

1. 标准 Action(控制空间)

定义:

[ a_t \in \mathbb{R}^n ]

特点:

  • 高维

  • 与具体机器人绑定

  • 表示“如何控制”


2. Latent Action(核心)

定义:

[ u_t \in \mathbb{R}^k,\quad k \ll n ]

作用:

[ z_{t+1} = f(z_t, u_t) ]


本质区别:

类型 含义
action 控制信号(how to act)
latent action 状态变化模式(what happens)

关键结论:

latent action 描述“变化效果”,而不是“控制细节”


四、Latent 的本质(重要修正)

原始理解(不完整):

latent = 压缩后的低维表示


更严格定义:

latent 是去除冗余后保留语义结构的表示空间


三个作用:

  1. 降低计算量

  2. 降低学习难度

  3. 统一多模态接口(最关键)


注意:

latent 不一定来自 VAE,也可以来自 Transformer / VLM


五、World Model(核心机制)

1. 基本形式

[ z_{t+1} = f(z_t, u_t) ]


2. 本质

学习语义状态的演化规律(dynamics)


3. 变化量形式

[ \Delta z = f(z_t, u_t) ]

[ z_{t+1} = z_t + \Delta z ]


4. 连续形式(进阶)

[ \frac{dz}{dt} = f(z, u) ]


关键理解:

world model ≈ latent 空间中的动力系统


六、关键纠正(重要认知升级)

误区:

world model 预测“每个点的变化”


正确:

world model 预测“整个语义状态的演化”


七、Diffusion 与 World Model 的关系

❗结论:

diffusion ≠ world model 的发展


正确关系:

diffusion 是一种工具,可以用于实现 world model


对比:

维度 diffusion world model
目标 生成数据 预测状态
输入 noise state + action
本质 生成过程 动力学建模

八、Action 的作用(关键理解)

[ z_{t+1} = f(z_t, u_t) ]


核心作用:

action 决定状态演化路径


对比:

情况 含义
无 action 被动预测
有 action 可控未来

九、整体统一视角(重要)

Perception(VLM)
    ↓
Latent State(z)
    ↓
Dynamics(World Model)
    ↓
Action(u)

十、今日核心结论(必须掌握)

1️⃣

VLM 负责理解,不负责行动

2️⃣

latent 是语义空间,不只是压缩

3️⃣

world model 学的是状态演化规律

4️⃣

latent action 是“变化模式”,不是控制信号

5️⃣

action 的本质是“选择未来”


十一、你当前所处阶段(定位)

你已经完成:

  • 生成模型基础(VAE / Diffusion)

  • 多模态理解(CLIP / VLM)

  • 动力学建模初步(World Model)


当前阶段:

VLA核心机制理解阶段(中级)


十二、下一步学习建议(关键路径)

建议下一步进入:

???? latent action 的学习机制

重点问题:

  • latent action 如何从数据中学习?

  • 是否需要 action 标注?

  • 如何从视频中反推 action?


后续方向:

  1. inverse dynamics

  2. video prediction → action inference

  3. world model + policy


十三、总结(一句话)

VLA = 在语义空间中,通过学习动力学与动作变量,实现对未来状态的可控生成


(完)

温馨提示:以上内容整理于网络,仅供参考,如果对您有帮助,留下您的阅读感言吧!
相关阅读
本类排行
相关标签
本类推荐

CPU | 内存 | 硬盘 | 显卡 | 显示器 | 主板 | 电源 | 键鼠 | 网站地图

Copyright © 2025-2035 诺佳网 版权所有 备案号:赣ICP备2025066733号
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。

关注微信