时间:2026-03-23 17:52
人气:
作者:admin
在有限时间内,建立以下最小认知闭环:
理解 VLM 在 VLA 中的作用
区分 action / latent action / latent state
掌握 world model 的动力学本质
明确 diffusion 与 world model 的关系(非继承)
定义:
将视觉与语言映射到统一语义空间的模型
形式化表示:
[ z = f(image, text) ]
作用:
提供语义理解(perception + reasoning)
输出统一的 latent 表示
image + text
↓
VLM(语义理解)
↓
latent state z_t
↓
action / latent action u_t
↓
world model(状态转移)
↓
z_{t+1}
定义:
[ a_t \in \mathbb{R}^n ]
特点:
高维
与具体机器人绑定
表示“如何控制”
定义:
[ u_t \in \mathbb{R}^k,\quad k \ll n ]
作用:
[ z_{t+1} = f(z_t, u_t) ]
| 类型 | 含义 |
|---|---|
| action | 控制信号(how to act) |
| latent action | 状态变化模式(what happens) |
latent action 描述“变化效果”,而不是“控制细节”
原始理解(不完整):
latent = 压缩后的低维表示
latent 是去除冗余后保留语义结构的表示空间
降低计算量
降低学习难度
统一多模态接口(最关键)
latent 不一定来自 VAE,也可以来自 Transformer / VLM
[ z_{t+1} = f(z_t, u_t) ]
学习语义状态的演化规律(dynamics)
[ \Delta z = f(z_t, u_t) ]
[ z_{t+1} = z_t + \Delta z ]
[ \frac{dz}{dt} = f(z, u) ]
world model ≈ latent 空间中的动力系统
world model 预测“每个点的变化”
world model 预测“整个语义状态的演化”
diffusion ≠ world model 的发展
diffusion 是一种工具,可以用于实现 world model
| 维度 | diffusion | world model |
|---|---|---|
| 目标 | 生成数据 | 预测状态 |
| 输入 | noise | state + action |
| 本质 | 生成过程 | 动力学建模 |
[ z_{t+1} = f(z_t, u_t) ]
action 决定状态演化路径
| 情况 | 含义 |
|---|---|
| 无 action | 被动预测 |
| 有 action | 可控未来 |
Perception(VLM) ↓ Latent State(z) ↓ Dynamics(World Model) ↓ Action(u)
VLM 负责理解,不负责行动
latent 是语义空间,不只是压缩
world model 学的是状态演化规律
latent action 是“变化模式”,不是控制信号
action 的本质是“选择未来”
你已经完成:
生成模型基础(VAE / Diffusion)
多模态理解(CLIP / VLM)
动力学建模初步(World Model)
VLA核心机制理解阶段(中级)
建议下一步进入:
重点问题:
latent action 如何从数据中学习?
是否需要 action 标注?
如何从视频中反推 action?
inverse dynamics
video prediction → action inference
world model + policy
VLA = 在语义空间中,通过学习动力学与动作变量,实现对未来状态的可控生成
(完)
everything-claude-code:Agent Harness 性能优化系