时间:2026-03-17 11:16
人气:
作者:admin
标签:具身智能 模仿学习 Diffusion Policy ACT 机器人控制 深度学习
如果你在 2026 年关注机器人和具身智能(Embodied AI),你绝对被斯坦福大学会炒虾、会叠衣服的 ALOHA 机器人,以及各种能穿针引线的灵巧手刷过屏。
当传统的强化学习(RL)在复杂的“灵巧操作(Dexterous Manipulation)”面前因为写不出奖励函数而疯狂吃瘪时,端到端模仿学习(End-to-End Imitation Learning) 站了出来,统治了目前的真实物理世界。
而在这个赛道里,有两座无法绕开的巅峰大山:
今天,我们不堆砌晦涩的数学公式,用最直白的人话、最生动的比喻,把这两大神级算法的底层逻辑扒个底朝天!无论你是刚入坑的萌新,还是想做真机部署的算法工程师,这篇文章都能帮你彻底打通任督二脉。
在讲这两大神器之前,我们必须先弄懂:以前的方法到底烂在哪里?
以前最经典的方法叫行为克隆(Behavior Cloning, BC)。它的逻辑很简单:输入当前摄像头的画面,神经网络直接输出下一步电机的角度。也就是“走一步,看一步”。
这导致了两个极其致命的灾难:
为了解决这两个千古难题,ACT 和 Diffusion Policy 各自带着绝招登场了。
ACT 的全称是 Action Chunking with Transformers(基于 Transformer 的动作切片)。
它的核心思想是:不要走一步看一步,我要像用 ChatGPT 翻译外语一样,一次性把未来的一长串动作全部“翻译”出来!
ACT 拥有三大核心魔法:
ACT 不再预测下一步动作,而是一次性预测未来连续的 kkk 步(比如 16 步或 100 步)轨迹。机器人闭着眼睛把这 100 步顺滑地执行完一小半,再睁开眼睛重新预测。这彻底消灭了“帕金森抖动”,动作如丝般顺滑。
怎么解决“左绕还是右绕”的撞杯子问题?ACT 祭出了大招——条件变分自编码器(CVAE)。
ACT 认为,人类的操作是有“风格”的。它在网络里加入了一个隐藏变量 zzz(你可以理解为一个盲盒)。
假设每秒钟算法都在预测未来 100 步,那么对于“第 5 秒”这个未来的时刻,算法其实在前面几次预测中已经给出了多次预测值。
ACT 会把这些重叠的预测值进行加权平均(越新的预测权重越大)。这不仅容错了,还让最终输出的控制指令极其平滑,这就是 ALOHA 能丝滑颠勺的终极秘密。
如果说 ACT 是个外语翻译家,那么 Diffusion Policy(扩散策略) 就是一个顶级雕刻家。它直接借用了 AI 画图(如 Stable Diffusion)的底层逻辑。
在 DP 眼里,未来 16 步的动作轨迹,就是一张“等待生成的图片”。
DP 在脑海里不是直接输出动作,而是先生成一段完全随机的乱码(纯噪音)。这就像是一块刚从山上挖下来的、充满无限可能性的原始大理石。
因为初始噪音是纯随机的,它本身就打破了平衡,天然解决了“求平均值撞杯子”的问题。随机噪音偏左,就降噪成左绕;偏右,就降噪成右绕。
机器人看着当前摄像头的画面(Observation),这个画面被 ResNet 提取成高维特征,作为降噪的“条件(Condition)”。
模型拿着这团杂乱无章的噪音,在图片的指导下,经过几十次循环擦拭(Denoising),一刀一刀地把噪音雕刻成了一段极其精准、合理的 16 步动作轨迹。
DP 完全抛弃了传统的“目标检测 -> 算坐标 -> 逆运动学”流水线。画面里不管是一根杂乱的充电线,还是一块柔软的面团,只要你给足了人类示范数据,它的扩散网络就能自己领悟物理规律,直接输出高维的关节角度!
如果你手握一套旗舰级硬件(比如六轴机械臂 + 五指灵巧手),准备在实验室大干一场,你该选谁?我为你总结了硬核对比图:
| 对比维度 | Diffusion Policy (DP) | ACT (Action Chunking with Transformers) |
|---|---|---|
| 底层原理 | DDPM 扩散去噪模型 | CVAE + Transformer 编码解码 |
| 推理延迟 (Latency) | 较高。需要循环几十步去噪,对高频实时性控制有挑战(加速后需数十毫秒)。 | 极低。Transformer 前向传播一次出结果,几毫秒搞定,完美支持高频控制。 |
| 多模态表达力 | 天花板级别。能极其精准地拟合复杂的非高斯分布,上限极高。 | 较好。强行用 CVAE 高斯分布拟合,面对极端复杂任务有时会发生“模式坍塌”。 |
| 动作平滑度 | 极佳。生成过程天然平滑。 | 极佳。依靠独门绝技“时间集成(Temporal Ensembling)”强行平滑。 |
| 训练调参体验 | 省心。超参数相对不敏感,数据给够,Loss 一般稳稳下降。 | 玄学偏多。CVAE 和 Transformer 的结合较难训练,很容易训崩,需要调参经验。 |
| 适用场景 | 极度复杂的灵巧操作(打绳结、捏面团)、高维多模态融合(视觉+触觉)。 | 需要极速响应的任务(动态避障、接飞球)、双臂双手高度协同(如 ALOHA 炒菜)。 |
看到这里,你的手是不是已经痒了?如何快速在自己的硬件上跑通这两大神级算法?
diffusion_policy 库。里面把 ACT 和 DP 的网络结构封装得极其完美。PushT 仿真小游戏,然后再到真机上做一个简单的“抓网球”任务。从“写规则算坐标”到“端到端看图出动作”,模仿学习正在以前所未有的速度重构具身智能的底层法则。
ACT 像是一个出拳极快、天下武功唯快不破的截拳道高手;
Diffusion Policy 则像是一个内功深厚、遇强则强、包容万物的太极宗师。
它们没有绝对的优劣,只有最适合你硬件与任务的解法。点赞收藏这篇文章,带上你的机械臂和数据手套,去炼制属于你的赛博大脑吧!