时间:2026-03-18 17:18
人气:
作者:admin
作者:无偏估计
地址:https://www.zhihu.com/question/1969460053296801225/answer/2010053141232649605
前言:终于在去年年末投出了一篇做了很久的SLAM相关的论文,大概是最后一篇一作的该话题相关的文章。话说现在大家不叫这个是SLAM了,改名叫spatial intelligence,robot也改名叫embodiment了。我刚博士入学那会儿,还没chatGPT,机器人还需要事先建图才能执行任务,谁知道过了一年就有了。于是现在有时跟同学调侃,是不是49年入了国军?大伙儿都笑。入没入不知道,但现在进行思想改造也许还来得及。于是投完论文后就对当前比较流行的世界模型,VLA等领域进行学习,总结了世界模型帮助机器人规划的七条路径,分享一下。

世界模型就是状态预测器
World Model目前似乎还没有很明确的定义,是一个各说各话的抽象概念。如果我们把他代入到强化学习的语境下,不妨可以把它定义为一个状态预测器,给定过去的状态和一个条件,预测未来的状态(或者再加一个reward)。
在强化学习里,状态的范围非常大,既包含环境(比如几何,纹理等等),也包含自身的状态,比如位姿,关节角。条件的作用是驱动状态进行转移。在不同的应用场景不一样,比如在游戏里,条件可能就是上下左右的方向键;在机器人导航里,条件可能是“向前走”,“找到一个红色小球”这样的文本指令。
一般来说,我们不能建模全部的状态,只能对它进行观测。所以在一些世界模型里,我们用部分的状态,也就是观测进行代替。比如图像就是对这个世界的环境的观测,或者说一种采样,连续的图像同时也可以推断出自身的状态变化,也是一种对自身状态的观测。因此在视频世界模型里,状态被视频所代替,像素就是状态。
这张slide给出的世界模型的公式也许不会被所有研究者认同,但如果我们基于此对世界模型做定义,那我们可以把很多研究都放到这个框架里,从而在某种程度上形成一个统一视角。
这是一个经典的九宫格式搞笑表情包。类似于之前见过的everything is NERF。
给定不同的状态与条件定义,我们就可以得到不同的世界模型。ChatGPT,Sora,NERF,甚至端到端规划器都是世界模型。(而SLAM只能建模过去,遗憾退出九宫格)
ChatGPT是世界模型
如果我们把状态定义为图像和文本token,条件是prompt,那么MLLM就是一个世界模型。对于LLM,这个世界就是用文字去描述的,类似于玩剧本杀。如果你问它2026会怎么样,我相信LLM世界模型一定会给你一个满意的回答。
Latent World Model
毫无疑问,我们的JEPA也是世界模型,是一种隐空间的世界模型。在V-JEPA里,一段视频被mask掉一段连续的部分,比如未来一段时间。那JEPA可以通过过去时刻的latent去预测未来被mask掉的时刻的。JEPA相信,预测像素是没有必要的,浪费计算的,这个世界有太多的无用的像素根本不值得学习。
我们很难理解JEPA的latent world是长什么样的,但也许对机器人智能体而言,他是对的。
最有趣的世界模型
视频世界模型,比如sora,seedance等模型,当然也是世界模型。无论是给定相机姿态让他预测未来视频,还是仅仅提供一个文本作为条件,现在的模型大多都能给出一个与条件一致的未来视频。
然而对于机器人研究者来说,有趣的视频生成往往不是一件好事,特别是那些严重违反现实物理规律的,他们有趣,但会误导我们的机器人。
NERF竟然也是世界模型!
在NERF火的时候,所有研究都是NERF的一类。现在风水轮流转,NERF也成了世界模型,
严格来说,一个限定时空下的世界模型。如果我们把建模好的4D NERF或者GS作为状态,条件是视角,位置这样的查询,那我们就可以获得在NERF建模的时空范围内的任一时刻任一视角下的观测。
仿真器是世界模型
对于NVIDIA Isaac Sim或者CARLA这样的仿真器,他们可以预测智能体下一刻看到的观测,以及如何与世界进行交互,因此仿真器毫无疑问也算世界模型。只不过仿真仿的不够真,可能会让机器人有sim-to-real gap。
端到端规划器怎么也是世界模型?
令人惊讶的是,端到端规划器在最初的定义下,也成世界模型了。因为世界模型是状态预测器,状态不能全部被观测,所以我们允许只输入或者输出部分状态,那机器人的轨迹也是状态的一部分,所以输入过去视频等观测,输出未来轨迹规划的端到端规划器也被称之为世界模型了。
虽然听起来有些戏谑,但如果真这么想,反而打开了思路。
下面,由我来继续介绍世界模型如何帮助规划的七条路径。对于每一条路径,我都给出他们如何实现,为什么有用,以及相关学术文献的介绍。
世界模型就是巨大规划先验
第一条路径很容易想到,我们可以用世界模型去训练一个很好的特征编码器。直觉上,这让我们的规划器具备一些通用的理解世界的知识。比方说,多视图几何知识,这种搞SFM/SLAM的搞来搞去的特征匹配,三角化等等的东西,被蕴含在视频预测学习里;即使你不用机器人视频去训练,用互联网上的VLOG视频,这种知识一样被学到。
我们在预训练阶段先训练一个很好的编码器,然后在机器人规划训练的时候,去掉原来的如视频预测的预测器,接上一个轻量的规划决策网络,就可以实现对预训练阶段学习的通用知识的利用,同时避免昂贵的未来稠密状态预测的负担。
曾经风靡一时的思考快与慢
在路径一里,世界模型的通用知识被蕴含在网络参数里。路径二提供了一个更直观的知识注入。先用VLM以低频率给出一个高层规划,然后用端到端规划器以更高频率进行执行。
快慢系统的设计思路听起来非常合理,类人。然而这里存在两点可能的问题。
当出现紧急情况时,慢系统反应太慢,不能给出及时的指示,快系统是否可以自动识别出慢系统的指示已过时,从而执行更优动作?
两者作为两个独立系统,缩小训练时段和测试时段差异也是一个重要问题。比如快系统的高层指令是用真值比较好,还是用慢系统生成的?这里面存在性能和效率的trade off。
最时髦的VLA:如果你问一机器人研究生他的研究方向,十有八九就是这个!
VLA是一个更紧耦合的方案,把规划统一到MLLM框架里。先输入视觉token和指令token,然后输出思维链,然后紧接着再输出action。不同论文对如何控制思维链长短,思维链和动作一致性,动作的生成方式是文本,专有action token,还是flow matching有不同的探索。我们这里仅做高层级的讨论:相比于快慢系统,VLA用一个统一的自回归框架去实现MLLM世界模型和规划器的集成,无论是对模仿学习还是强化学习阶段的训练,都更友好。
对于VLA,大家统一的共识是加入了所谓的世界通用知识(主要是来自于互联网文本和人类反馈强化学习),这与我们之前的认知一致(路径一和二),是一种逻辑上自洽的解释。然而,如果我们从技术上做更进一步思考,在之前的框架里,我们的端到端规划器学习如何从视觉映射到动作空间,无论是模仿学习还是强化学习,都在末端,也就是action,进行监督。没人care这种映射的过程到底是怎么样的。
VLA框架,给出了答案。思维链即是映射路径,即是人们所关心的因果推理。VLA提供了一种文本代理,让标注员可以去标注这种映射路径,让这个映射路径(思维链)是真的有因果关系的一段文本。而自回归网络的训练方法,预测下一个token,要求vision必须以这种路径映射到action。VLA,一个不只看结果,知行合一的好同学,他在意V如何到达A,L与A是否一致。
端到端规划器是世界模型
端到端规划是世界模型,如果你赞同这一点,那么你应该知道你训练的不是规划器,是世界模型,是不是心潮澎湃一点_。
既然训练的是世界模型,那么你的损失就不应该只是action或者trajectory,而是未来的视频或者latent。我知道有人会说未来是多种多样的,但这和端到端规划器遇到的问题是一样的,也就是多模态。用生成式学习,比如flow matching, diffusion大概会对这个问题的解决有所帮助。
想象难还是规划难?
现在很多工作支持先想象未来的视频(比如说,给我预测一段能成功拿起香蕉的视频),再用逆运动学(也是一个网络去实现)得到action。和路径三VLA类比,路径五是提供了一种视觉思维链的方式,也和路径四一样,提供稠密监督,当然,也具备路径一所说的,世界通用知识。这种方式可能面临的担忧是,
没人会怀疑语言思维链预测有多难,因为大家认识到了GPT之类LLM的威力,但想象视频再执行是否是一种南辕北辙?
此外,想象视频的误差是否会被传导到action?
第二个问题是VLA也有的,思维链的错误也会传导到action,解决办法是把他训练的足够好。剩下的就是第一个问题所说的那要,到底能不能训好对规划有帮助的视频世界模型?
我认为,这是一个做了才知道的答案。
首先,如果我们认同人就是最高级别的人工智能,那么对于人类来说,想象一个图片容易还是给出一段轨迹的坐标容易?好像每次人类执行动作前,想象的都是画面而不是动作的xyz?
其次,想象错了就真的影响动作吗?至少有一点不影响,背景想象错了,不太会影响,人在规划时想象,也不会刻意想象背景。与其苦恼这一点,不如直捣黄龙,设置标准严谨的实验,看加入想象过程是否对规划有作用。再进一步用VLM去辅助找出想象错误的clip,观察想象质量和规划质量的相关性。
最后,我们已经可以从论文中得到答案,实验结果告诉我们加入视频想象确实有用,剩下的也许就是扩大实验数据集到实际应用数据集。总的来说,我对这个技术路线持乐观态度,也许最后不是想象每一个像素,想象的训练目标跟规划有关,但想象应该是有用的。也许seedance 3之类的更强大的视频模型出来后,就没人担心了。
而对于到底应该是语言世界模型还是视频世界模型,现在也没有定论,需要去尝试。我认为二者各有千秋。语言模型是对世界进行抽象、符号化的描述,它高度概括,信息密度高;而Video模型则是具体、像素级的描述,忠实记录视觉信号的连续变化。这是两者一切差异的起点。有相当一部分人认为语言就够好,视频模型有太多无用的像素。其实我也不知道哪个更好,不过我可以作为辩手对这个观点进行反驳:
语言模型的抽象描述面临一个根本问题:它是否真的能涵盖所有对规划有用的世界演化信息?在压缩和概括的过程中,可能会过滤掉一些细微但关键的环境变化或动作细节。相反,Video模型保留了原始像素,理论上信息是完备的。
这里引出一个深刻的问题:我们能否事先定义哪些像素是“无用”的?比如,规划时认为路边的树是无关背景,但这棵树本身可能暗示了地形、气候或附近存在城市(与沙漠环境不同),从而影响决策。因此,Video模型将“判断信息相关性”的任务交给了模型自身的学习过程,避免了人类先入为主的预设偏差。
标注难度:语言模型通常需要大量高质量的、与动作强关联的文本标注数据,这类数据依赖人工,在规模化和准确度上受到挑战。而Video数据本身就是动作的天然记录,可以通过裁剪等自动化方式轻松获取大量样本。
与动作的相关性:语言描述与真实物理动作之间可能存在不一致或脱节。例如,语言指令“停下”与机器人复杂的刹车动作序列之间,映射关系可能模糊或缺失细节。语言难以描述非常精细、连续的动作变化。而Video模型在这方面具有天然优势,因为像素的连续变化本身就是动作的直接编码,两者关联性强,敏感度高,不易产生语义鸿沟。

世界模型就是你的奇异博士
路径六好似奇异博士,当你提出了一千种打败灭霸的方案,世界模型告诉你只有一种才会成功。
在这个路径下,你可以想象出未来的视频,未来的点云流动,甚至是未来的隐变量变化。然后你可以通过一些显式的方法,比如是否碰撞,是否和目标图像长得像,是否拿起了物体,或者一些基于网络的方法,比如用VLM告诉你这个未来视频有没有实现你的目标,去得到不同决策下的reward。根据这个reward,你可以再去调节你得决策生成器,这样周而复始,得到最好的决策。
世界模型,用于闭环仿真
终于来到了最后一个路径,一个众所周知的答案,用于闭环仿真。
对于模仿学习来说,训练集分布和测试集分布一致很重要。然而,我们不能让专业司机采集完所有的情况去制作一个覆盖所有可能情况的训练分布,代价太高。一个可扩展的方法是,我们在世界模型仿真器里去制作各种情况,比如对原有训练集做扰动,让车偏离了中心线,这个时候我们用一些数据驱动/规则规划器去生成一个可行解,也就是回归到中心线的规划路线,这样我们就可以很容易地对模仿学习训练集进行扩充。
对于强化学习来说,理想的世界模型可以模拟出规划器执行不同动作后会接收到的观测,比如周围车辆如何和自车交互,这对构建更真实的reward,探索更大决策空间等方面都有很大帮助。
Towards Video World Models 这个博客告诉我们一个好的世界模型仿真器应该是怎么样的。这篇博客给了我很大帮助,也启发了我写本篇博客,谢谢这位博主。
最后,世界模型如何帮助机器人规划的七条路径就讲完了。关于世界模型为什么这么重要,我们不谈什么玄乎的话,我认为就两点,第一,训练数据对标注需求更少,更容易scaling up;第二,稠密的监督信号是对训练数据的极值压榨。一句话,世界模型的兴起,恰恰因为他是对bitter lesson的出色回答。我现在搞新研究都忐忑得很,搞之前都得想想有没有用,别搞出来了大家都不太关心。我相信,这七条路径足以说服我自己探索相关的研究(哈哈)。邻近毕业,再给自己上一把杠杆儿。
彩蛋:世界模型就是对世界运行规律进行建模,是建世界地图,形式上,是对下一刻状态的估计。而SLAM是建图,也是状态估计,所以,世界模型,其实就是SLAM!