26年2月来自港科大和上海AI实验室的论文“Human

26年2月来自港科大和上海AI实验室的论文“HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos”。

使人形机器人能够执行敏捷且适应性强的交互任务一直是机器人领域的核心挑战。现有方法要么受限于真实交互数据的匮乏，要么受限于需要精细的、针对特定任务的奖励工程，这限制其可扩展性。为了缩小这一差距，提出HumanX，一个全栈框架，它无需针对特定任务的奖励，即可将人类视频编译成可泛化的、适用于人形机器人的真实交互技能。HumanX 集成两个协同设计的组件：XGen，一个数据生成管道，它能够从视频中合成多样化且符合物理规律的机器人交互数据，同时支持可扩展的数据增强；以及 XMimic，一个统一的模仿学习框架，用于学习可泛化的交互技能。在篮球、足球、羽毛球、货物搬运和反应式格斗这五个不同的领域中，HumanX 成功学习了10 种不同的技能，并能以零样本的方式将其迁移到 Unitree G1 人形机器人上。所学习的能力包括无需任何外部感知即可完成的复杂动作，例如假动作转身后仰跳投，以及诸如连续10个循环的人机互动传球序列等交互任务——这些能力均通过观看单个视频演示即可学习。实验表明，HumanX 的泛化成功率比以往方法高出8倍以上，展示一种可扩展且与任务无关的学习路径，用于学习多功能、适用于真实世界的机器人交互技能。

人形机器人运动操作的数据采集

将人体运动重定向到人形机器人并应用强化学习进行模仿，在敏捷、动态技能方面展现出巨大的潜力[14, 13, 32, 22, 25, 65, 7, 19, 53, 40, 62, 59]。例如，SFV[34]从单目视频中估计人体姿态，使模拟人形机器人能够执行复杂的杂技动作。SkillMimic[50, 48]从视频中估计人体和物体的运动，以在模拟环境中训练各种篮球技能。VideoMimic[1]从视频中估计人-场景交互数据，并通过模仿实现真实世界的人形机器人-场景交互。同时，GMR[2]提供一个通用的运动重定向框架，可以将人体运动映射到各种机器人形态。近期的一些方法探索了利用人-物或人-场景交互数据进行重定向，以训练运动操作策略[58, 52, 46]。然而，这些方法要么依赖于高质量的人-物交互数据进行重定向，要么在尝试从单目视频中估计精确的人-目标交互（HOI）数据时，会受到遮挡和深度模糊的挑战——尤其是在处理像转身后仰跳投这样复杂的动作时。此外，这些方法的数据效率低下，难以收集足够的样本来构建泛化性良好的策略。

人形机器人的强化学习

物理模拟中的强化学习 (RL) 已成为全身人形机器人控制的关键范式 [14, 13, 21, 25, 20, 15, 38, 57, 45, 3, 7]。早期用于人形机器人的强化学习方法主要集中于步态学习，通常需要精心设计的特定任务奖励函数 [42, 16, 23, 24]。这种奖励工程范式也被证明对其他各种任务有效，例如起身 [15, 17]、守门 [36] 和搬运箱子 [46]。

受角色动画中模仿学习成功案例的启发[33, 35, 28, 54]，将人类动作重新定向到类人机器人并应用模仿奖励，使得机器人能够通过统一的模仿奖励获得多种运动技能，例如跑酷[66, 63]、武术[53]、跳跃[14, 18]，甚至可泛化的全身运动跟踪[59, 62, 6, 61, 22, 32]。将这种基于模仿的范式扩展到交互领域，在仿真方面已取得初步进展。例如，Wang[48, 50]引入人-目标交互（HOI）模仿，利用接触图和交互模仿奖励，在统一的奖励机制下学习篮球和灵巧操作技能。Xu[56]将HOI模仿扩展到大规模跨具身HOI数据集。Tesler[57]提出一种基于模拟的HOI方法，该方法能够模拟人类与目标之间的交互，并利用接触图和交互模仿奖励，在统一的奖励机制下学习人类与物体之间的交互。 [43] 实现大规模全身灵巧操作的人形机器人模仿。

近期将人形机器人模仿应用于现实世界的人形机器人面临着诸多挑战[52, 58]：人类与机器人之间的运动学差异、在人形机器人重定向过程中难以保持物理合理性、物体动力学引入的复杂仿真与现实差距，以及过拟合的倾向，导致泛化能力差。

HumanX：XGen和Xmimic

人形机器人与人类在形态上具有相似性，使其能够在人类环境中无缝运行并与日常物品互动。这种内在的兼容性表明，人类运动中展现的丰富多样的技能蕴藏着巨大的、但尚未被充分开发的资源。然而，如何释放这种潜力并将其应用于机器人学习仍然是一个挑战。行为克隆（BC）虽然提供一种统一的训练范式，但它依赖于大规模、成本高昂的远程操作演示[10, 4, 8]。强化学习（RL）结合物理模拟可以显著减少对大量高质量演示的需求，但它通常需要精心设计的、针对特定任务的奖励函数，这限制了其在不同任务中的可扩展性[11, 29, 15, 46, 64, 55]。这些瓶颈共同制约了通用、可扩展的人形机器人交互技能学习流程的开发。

为了克服这些局限性，HumanX，一个全栈框架，将人类视频编译成可推广的、适用于人形机器人的真实世界交互技能——无需任何特定任务的奖励设计。HumanX 集成两个协同设计的组件：XGen，一个数据生成流程，它从单目视频中合成多样化且符合物理规律的人形机器人交互数据，同时支持可扩展的数据增强；以及 XMimic，一个统一的模仿学习（IL）框架，它完全通过模仿 XGen 合成的行为来掌握交互技能。如图所示：

请添加图片描述

XGen 背后的一个基本理念是，符合物理规律的交互对于机器人技能习得至关重要，其重要性远远超过对光度学上精确重建的需求。尽管从单目视频中分别估计人和物体的运动已得到充分研究[27, 39, 5, 51, 41]，但由于遮挡和深度模糊等问题，简单地将这些独立的估计值组合起来往往会产生不符合物理规律的结果[12, 48]。XGen 通过根本性地转变范式来解决这个问题：它合成由物理先验决定的交互轨迹，而不是追求精确重建。这种转变使得数据增强变得高效，XGen 仅需一个视频演示即可生成分布广泛的、符合物理规律的交互轨迹。具体来说，XGen 的运行分为三个阶段：（1）提取人体运动并将其重定向到机器人；（2）基于物理的物体轨迹合成，并结合接触感知细化；（3）通过物体几何缩放和轨迹变化进行数据增强，以最大化覆盖范围，从而提高泛化能力。

通过模仿人-目标交互（HOI）来学习交互技能提供一种与任务无关的范式[48, 50, 56]。然而，由于动态物体交互引入了极大的复杂性，在真实的人形机器人上部署准确、自然且可泛化的HOI技能仍然是一个巨大的挑战。XMimic通过四项关键创新来应对这些挑战：（1）统一的奖励机制，能够准确模仿各种复杂的交互行为；（2）灵活的感知机制，可以适应不同的现实世界感知限制；（3）通过扰动初始化和交互优先学习进行泛化优先训练；以及（4）从视频中可扩展地获取多种技能模式。这些组件被集成到一个两-阶段的师生框架中，从而实现一种策略，该策略能够实现远超原始视频演示的泛化能力，并支持稳健、灵活的部署。

XGen 是一个数据合成流程，它能够从人体演示视频中生成符合物理规律的人形机器人交互数据。如图所示，它将单目人体视频转换为人形机器人的运动，并在物理约束下合成相应的交互动作。该流程还支持增强物体的网格、尺寸和轨迹，从而生成大规模、多样化的交互数据，为学习可泛化的交互技能奠定基础。

请添加图片描述

从人体视频中提取人形机器人运动

给定一个包含 K 帧的单目 RGB 视频，首先使用 GVHMR [39] 获取 3D 人体姿态序列的初始估计。

随后，用 GMR [2] 将人体姿态序列重定向到目标人形机器人的姿态序列，该过程包含三个核心步骤：关键点对齐、骨架尺度化和基于 IK 的优化。

合成人形机器人与物体的交互

将数据分割为接触阶段和非接触阶段。在接触阶段，利用预定义锚点（例如，两手掌的中点）与物体之间相对姿态的不变性。物体轨迹的合成是通过将该相对姿态沿从机器人运动序列 {r_i} 导出的锚点轨迹传播来实现的。然后，在力闭合约束下优化机器人姿态，以确保接触过程中的物理合理性。对于非接触阶段，用物理模拟器生成符合物理规律的物体轨迹。

如上图所示，以搬运箱子为例，首先根据时间戳 t 将视频帧标注为三个连续的片段：接触开始前的非接触阶段 (t < t_s)、接触阶段 (t_s ≤ t ≤ t_e) 和接触结束后的最终非接触阶段 (t > t_e)。

接触阶段：将预定义锚点与物体之间的相对运动视为交互的核心。这种表示方法具有良好的跨具身特性，这意味着相同的锚点-物体关系可以在不同的形态之间转移（例如，从人类到人形机器人），同时保持交互语义。主要讨论两种锚点定义：（1）使用双掌中点作为锚点，适用于物体被双手稳定握持的接触阶段，例如提箱子、投篮和上篮。（2）使用特定的身体部位作为锚点，适用于涉及单点交互的接触阶段，例如击打羽毛球或踢足球。

一旦定义了锚点，就可以使用 SAM-3D [5] 从视频帧 v_t_s 中估计物体的网格及其相对于锚点在时间 t_s 的旋转 φ。或者，可以手动定义网格和初始物体锚点姿态，这也允许从物体不可见的视频中合成交互。然后，从机器人运动序列 {r_i} 导出锚点的轨迹，并通过在锚点运动过程中保持相对变换 φ 来获得相应的物体轨迹。

为了提高物理合理性，可以在力闭合约束下逐帧优化机器人运动 [26, 47, 49]，从而在接触阶段的每一帧中得到更精细的机器人姿态 ˆr_t 和相应的物体姿态 p_t。

非接触阶段：为了确保运动平滑，在相变点周围 k 帧的窗口内对物体姿态应用线性插值。

在非接触阶段，使用物理模拟器（例如 IsaacGym [30]）合成物体轨迹。具体而言：(1) 接触结束后 (t > t_e)，物体在仿真中以姿态 p_t_e 和预定义的初始速度初始化，并记录其在仿真中的轨迹。这适用于篮球投篮、足球踢球或物体放置等动作。(2) 接触开始前 (t < t_s)，例如接球时，反向模拟：从 p_t_s 开始，反向模拟物体，然后反向模拟以获得接触前的轨迹。这可以精确地合成诸如抛物线球路径入手等运动。为了确保反向仿真的物理合理性，物体的阻尼系数会被反转。

交互增强

XGen 支持多维度的数据增强，以增加交互的多样性和数据覆盖范围。

缩放物体几何：在网格采集阶段，对物体网格进行缩放或将其替换为不同的几何体。后续的 XGen 合成过程确保缩放或替换后的物体与对象之间的交互在物理上仍然合理。这可以从单个演示视频中生成对不同物体执行类似动作的数据，如图所示。

请添加图片描述

丰富接触阶段的物体轨迹：通过应用简单的几何变换（例如平移和缩放），可以增强接触阶段的物体轨迹。后续的 XGen 流程确保增强后交互的物理合理性。例如，从单个举起箱子的演示视频中，XGen 可以生成从不同高度举起同一箱子的训练数据，如上图所示。
丰富非接触阶段的物体轨迹：通过在物理模拟中引入物体初始速度的参数化随机化，来丰富非接触阶段物体轨迹的多样性。例如，从一次击打羽毛球的演示中，XGen 可以生成以不同抛物线轨迹击打羽毛球的数据。类似地，如图所示，一个篮球投篮视频可以产生训练数据，用于从不同距离进行投篮。

请添加图片描述

XMimic 是一个统一的交互模仿学习框架，它使人形机器人能够从人形交互数据中习得丰富的交互技能。为了实现准确自然的模仿、强大的泛化能力和灵活的部署，在训练架构、感知方案、奖励设计和仿真设置等方面引入关键创新。

师生训练架构

训练过程遵循两-阶段师生范式，首先利用特权信息掌握单个技能，然后将其整合为统一的可部署策略。整个流程如图所示。

请添加图片描述

策略构建：给定观测值 s_t 作为输入，策略输出被参数化为高斯分布。然后，通过 PD 控制器将生成的动作 a_t（n 为机器人自由度数）转换为关节力矩。
训练特权教师策略：给定 n 个技能模式及其对应由 XGen 生成的数据集 {D_1, …，D_n}，在每个数据集 D_i 上训练一个教师策略 πⁱ_tea。单个教师的训练过程如下：从其专用数据集中采样一个轨迹片段，并根据该片段的第一帧初始化人形机器人及其物体。在每个时间步 t，策略接收一个特权状态观测值 s_t = {o_t, o^priv_t, s^ext_t}，该观测值包含本体感觉 o_t、特权身体信息 o^priv_t 和物体状态 s^ext_t。然后，策略在 t 采样一个动作，并在物理模拟器中执行该动作。随后，计算奖励 r_t。使用 PPO [37] 优化教师策略的网络参数 φ_π，以最大化预期累积奖励。
将教师策略提炼为可部署的学生策略：学生策略的训练过程与教师策略类似，均基于合并数据集 D = U_i D_i，但有两个关键区别。首先，学生策略的观察排除所有特权状态信息，仅保留本体感觉和可选的物体观察。其次，训练目标函数扩展为将 PPO 策略梯度项与行为克隆 (BC) 损失L_BC 相结合，从而提炼预训练教师策略的知识。

感知设计

基于本体感觉感知外部力：受人类即使没有视觉也能通过力反馈隐式感知交互状态的启发，进行一项理论分析，证明人形机器人也能类似地从本体感觉推断外部力。具体而言，动力学方程[9, 31]表明，外部关节力矩可以表示为指令力矩与惯性力、科里奥利力（Coriolis）、重力和摩擦力之和的差值。在实际的人形机器人（Unitree G1）中，关节位置q和速度q̇可以直接测量，指令力矩τ_cmd由PD控制器近似计算，加速度信息则通过速度观测历史隐式提供。其余项近似为常数。因此，策略的观测空间包含所有相关变量，从而无需专用力/力矩传感器即可实现力感知交互。
灵活的物体感知部署方案：XMimic 支持两种实用的部署方案：无外部感知 (NEP) 模式和基于动作捕捉 (MoCap) 的模式。

在 NEP 模式下，学生训练期间移除物体观测数据，使机器人能够完全依靠本体感知进行动态交互。该模式支持投篮、上篮、运球等技能，以及诸如假动作转身跳投等复杂动作。其主要优势在于无需外部传感器，从而简化了部署并提高了稳定性。然而，这种方法无法处理非接触式交互，例如接住飞球。

在 MoCap 模式下，物体观测数据由 MoCap 系统提供。然而，由于遮挡，通过 MoCap 进行物体跟踪经常会出现间歇性丢帧。为了解决这个问题，MoCap 模式在学生训练期间将真实模拟的丢帧引入到物体观测数据中。这使得系统能够零样本适应存在间歇性数据丢失的真实世界 MoCap 数据流。

统一交互模仿奖励

为了实现对人-物交互的精确模仿，采用一种复合奖励 r_t = r^body_t + r^obj_t + r^rel_t + r^c_t + r^reg_t。其中，身体模仿奖励 r^body_t 追踪身体位置、旋转、关节位置及其速度 [14]，并包含一个对抗运动先验 (AMP) 项以增强自然度 [35]。物体奖励 r^obj_t 确保精确追踪物体状态。相对运动奖励 r^rel_t 通过计算相对位置和旋转误差来鼓励正确的身体-目标相对空间关系。接触奖励 r^c_t 惩罚与参考接触图 [48, 50] 的偏差，从而确保精确的接触时间和位置。正则化项 r^reg_t 促进运动平滑性并提高部署稳定性。

仿真设置

扰动初始化：为了增强学习的交互技能泛化能力，防止过拟合演示数据，在每个训练阶段开始时对机器人的根旋转、根位移、关节角度以及物体姿态施加随机扰动[60]。
交互终止：加性奖励机制可能导致策略收敛到局部最优解，例如学习物体运动模式而忽略交互相关的奖励[48]。为了优先学习交互，提出交互终止（IT）机制。具体来说，当参考系包含接触状态时，会监测物体与预定义关键物体之间的相对位置误差。如果该误差超过阈值，则以一定的概率终止该训练回合。这种概率性终止机制有效地防止对受限条件的过拟合，对于实现稳定的实际部署至关重要。
域随机化：对各种物理属性[44]应用域随机化（DR），包括物体尺寸、质量和恢复系数，以及机器人摩擦系数、质心偏移和感知噪声。此外，在训练过程中对机器人施加持续的随机外力。这些域随机化项对于实现稳健的部署尤为重要。

泛化，在此被定义为策略在适应交互对象状态变化的同时，执行一致交互的能力。这种泛化的基础，是精确的交互模仿。为了防止过拟合演示中的特定轨迹，学习策略不接收相位或参考数据作为观测值。除此之外，通过三种互补机制实现稳健的泛化：（1）来自 XGen 的多样化离线数据，涵盖广泛的对象状态分布；（2）通过在训练期间进行扰动初始化来在线增强数据，进一步扩展状态覆盖范围；（3）交互感知终止，优先考虑交互成功，并防止过拟合仅基于身体运动的策略。因此，HumanX 所获得的技能远远超出简单的动作回放。例如，仅通过一个视频演示，该策略就能学习执行超过十个连续循环的人-机篮球传球动作。