26年6月来自中科大的论文“Human2Humanoid: Physics-Aware Cross-Morphology Motion Retargeting for Humanoid Robots”。
将人体动作重定向至人形机器人对于遥操作、模仿学习及人机交互至关重要。然而,由于人类与机器人在形态结构上存在显著差异(包括骨骼拓扑结构、肢体比例及自由度等方面的不同),加之成对动作数据的匮乏,这一任务极具挑战性。本文提出一种名为 Human2Humanoid 的无监督动作重定向框架,能够高保真地将人体动作迁移为人形机器人的动作行为。为了在缺乏成对数据的情况下弥合域间差异,采用一种基于 CycleGAN 的架构,并结合感知骨骼结构的图卷积网络,以捕捉依赖于拓扑结构的动作特征。针对跨域尺度不匹配问题,引入一种形态不变的末端执行器一致性损失函数,通过对齐归一化后的末端执行器轨迹,在不同形态主体间保持动作语义。此外,为提升物理合理性并减少接触伪影,施加显式的物理可行性约束,以促使机器人复现源动作中的接触模式。实验结果表明,该方法无需成对数据即可成功将人体动作重定向至 Unitree G1 人形机器人,且在下游任务的可控性与物理可行性方面均优于现有方法。
机器人领域的运动重定向
针对人形机器人的运动重定向,传统方法主要采用逆运动学和约束优化技术。Ayusawa & Yoshida 提出联合优化形态参数与机器人运动,在复现源运动特征的同时减少几何不匹配 [16]。Penco 针对人形机器人遥操作,将实时全身运动重定向建模为约束逆运动学与二次规划问题 [17]。近期,Araujo 指出,足部滑动、自碰撞及物理不可行性等重定向伪影会严重影响后续的人形机器人运动跟踪效果,并提出“通用运动重定向”(GMR)方法,结合非均匀局部缩放与约束优化来解决这些问题 [10]。这些基于优化的方法具有良好的可解释性,且能直接施加物理约束;然而,它们往往对初始条件、目标权重及针对特定运动的参数调整较为敏感。当形态差异较大时,几何拟合可能产生虽可运动但语义失真的姿态,例如步幅压缩、手臂轨迹偏移或站立阶段不稳定等。
基于学习的方法旨在通过从数据中学习人机映射关系,来减轻上述工程负担。然而,其核心难点在于监督学习需要成对的人机运动数据,而此类数据的采集成本高昂,且难以在不同形态的机器人之间进行扩展。S3LE 虽通过自监督生成流程减少人工数据采集量,但其学习过程仍依赖于成对的人体姿态与机器人构型数据 [6]。此外,该方法的评估主要集中在 COMAN 人形机器人的上半身运动,未涉及根节点位移及足地接触等稳定的下半身控制问题。近期的神经运动重定向方法通过构建经物理特性优化的监督信号,进一步提升运动的可行性。例如,NMR 提出一种“聚类-专家物理细化”流程:先筛选人体运动数据,进行基于优化的重定向与滤波处理,再利用仿真环境中的专家策略推演(rollout)生成符合物理规律的人机运动配对数据 [18]。该策略提升运动跟踪质量,但其有效性仍取决于在预先筛选出的“机器人可行运动子空间”内生成的、针对特定形态的成对监督数据。因此,将其扩展到新的机器人形态需要重新构建同样的机器人专用数据构建流水线,并针对目标形态和动力学特性重新配置其中的关键环节。此外,由于源动作经过筛选以保留机器人原则上可执行的动作,且配对的目标动作也经过了针对跟踪可行性的修正,因此学习到的映射可能会偏向于动力学上可跟踪的动作,而无法完全保留开放式人类动作的多样性和细粒度语义。这种局限性在涉及明确环境几何结构或外部接触的动作(如坐下、踏上台阶或物体操作)中尤为明显。
生成式模型为跨形态动作重定向提供了另一种途径。G-DReaM 利用图结构来表示异构形态,并在缺乏真实目标动作数据的情况下,使用能量引导的重定向损失来训练图条件扩散模型 [19]。这一方向提高了跨形态的扩展性,但要实现人形机器人的可靠部署,目标动作仍需保持语义结构、接触一致性及运动学可行性。
总体而言,现有的机器人动作重定向方法要么依赖于显式优化(具有可解释性但对参数调整敏感),要么依赖于学习的映射(通常通过数据收集、筛选和基于物理的细化重新引入配对监督)。这促使人们探索一种无需配对监督的重定向框架,该框架既能保留跨形态语义,又能确保与接触相关的物理合理性。
动画与计算机图形学中的动作重定向
动作重定向在计算机图形学和动画领域也得到了广泛研究,其目标是在具有不同体型或骨架的角色之间复用动作资产。早期研究将该问题建模为受约束的动作编辑任务。例如,Gleicher 在进行跨角色动作适配时,利用时空约束来保持关键动作属性(如脚与地面的接触)[4]。由于这些建模方法与机器人重定向中使用的优化方法密切相关,它们也存在类似的缺陷。
动画领域中基于学习的重定向方法为非配对动作迁移提供了重要参考。神经运动学网络(Neural Kinematic Networks)结合了解析式正向运动学层与循环一致性及对抗性目标,从而实现了无需配对动作序列的无监督重定向 [14]。PMnet 将局部姿态迁移与全局运动适配分离开来,从而减少了仅在关节空间对齐运动所导致的漂移和畸变 [20]。骨架-觉察网络(Skeleton-Aware Networks) 进一步引入拓扑-觉察卷积、池化(pooling)和反池化(unpooling)算子,将同胚骨架编码到共享的潜空间中,实现无需成对数据的跨角色运动重定向 [5]。Pose-to-Motion 将这一思想扩展到数据稀缺场景,利用静态目标姿态作为先验信息,合成出合理的目标运动 [15]。这些研究表明,只要合理设计结构先验和循环风格的目标函数,成对运动监督并非严格必要。
计算机图形学领域的近期方法也更加明确地考虑几何、接触和生成式建模因素。R2ET 采用独立的残差模块分别用于骨架语义保持和几何感知校正,从而减少穿模(interpenetration)和接触缺失等伪影 [11]。ReConForM 从接触语义出发,利用一组可迁移的关键网格顶点,在不同角色形态之间提升接触准确性和运动平滑度 [21]。MoReFlow 将重定向问题建模为特定角色运动嵌入空间之间的无监督流匹配(flow matching),并强调不同应用域侧重的重定向目标各异:动画域侧重于风格和视觉合理性,而机器人域则侧重于任务空间对齐和可执行性 [22]。
尽管取得了这些进展,上述重定向方法通常仅通过视觉合理性进行评估。它们无法直接应用于人形机器人,因为后者要求关节轨迹满足特定的机体关节限位、全身稳定性、离地间隙以及防滑要求。此外,这些方法往往假设不同机体之间具有一致的拓扑结构、同胚骨架以及可迁移的网格对应关系,这与人类到人形机器人之间存在自由度和机械约束差异的设定不符。因此,为了实现从人类到人形机器人的运动重定向,有必要针对机器人特有的语义和物理约束对这些非成对重定向方法进行增强。
下面介绍Human2Humanoid。
该任务的目标是学习一个从人类运动域 B 到人形机器人运动域 A 的非成对映射 G_B→A。如图 1 所示,该框架包含两个生成器 G_B→A 和 G_A→B,以及两个判别器 D_A 和 D_B。假设可获取分别来自域 A 和域 B 的两组未配对运动数据集合 Q_A = {q_A} 和 Q_B = {q_B};这两组数据在时间上未对齐,也不存在帧级别的对应关系。在训练过程中,从每个集合中均匀采样固定长度的时间窗口,构建用于对抗学习和循环学习的小批量(mini-batch)数据。为了解决形态差异并确保物理可行性,结合骨架-觉察图卷积网络(GCN),并引入形态不变末端执行器一致性损失以及物理-觉察可行性约束。
A. 网络架构
- 骨架-觉察生成器:为了有效处理具有层级结构的骨架数据,在生成器中采用骨架-觉察图卷积网络(Skeleton-Aware GCNs)[5],这与以往将姿态视为简单向量的方法不同。该生成器由编码器、潜空间和解码器组成。编码器不将关节点特征展平,而是利用 SkeletonConv 层。这种卷积操作显式地利用由邻接矩阵定义的骨架拓扑结构。
此外,该方法采用基于拓扑结构的池化(pooling)策略,将高维骨架特征压缩至低维潜空间,随后利用反池化(unpooling)操作恢复目标拓扑结构。这种设计使网络能够捕捉局部关节间的相关性,并适应不同的运动链结构。SkeletonConv(骨架卷积)及拓扑池化/反池化操作均在每个时间步的空间骨架图上进行。通过在动作序列上应用滑动窗口式的生成器来建模时间一致性,这既能促进帧与帧之间的平滑过渡,又能保持局部的空间运动学特性。
值得注意的是,该方法并不要求不同具身(embodiments)之间存在逐关节的对应关系。骨架-觉察层在各自领域的原生运动学图上进行运算,而跨域耦合则通过循环一致性目标以及形态不变性约束中用到的一组共享语义末端执行器(semantic end-effectors)来实现。
- 逐帧姿态判别器:该判别器以逐帧方式进行运作。对于由各关节旋转特征表示的输入姿态序列,首先利用一个关节共享嵌入模块提取潜关节特征;该模块由 1×1 卷积和 LeakyReLU 激活函数实现。
基于这种帧级姿态表示,判别器包含两个互补的分支。其中,关节级姿态分支(记为 D_each)利用针对特定关节的线性头来预测关节级的真实度评分;每个线性头将对应关节的潜在特征从 RC映射到 R。
针对对抗性目标,判别器的输出保留为各关节的评分,而非聚合成单一标量评分。随后,对每个关节的评分独立应用 LSGAN 损失,并将所得的平方误差在采样时间窗口内的所有关节和帧上进行平均。
B. 形态-无关末端执行器一致性损失
人类与人形机器人在肢体长度和比例上往往存在显著差异。例如,人类的手臂远长于 Unitree G1 等紧凑型机器人的手臂。若直接在笛卡尔空间中约束绝对位置,可能会导致语义失效(例如,手部无法触及预期目标)。因此,本文提出一种形态-无关末端执行器一致性损失(Morphology-Invariant End-Effector Consistency Loss)来解决这一问题。
该方法不直接对齐绝对坐标,而是将末端执行器的轨迹对齐到一个相对于静止姿态(T-pose)定义的形态无关空间中。具体而言,给定源人体动作 q_B 和生成的机器人动作 qˆ_A = G_B→A(q_B),可通过正向运动学计算末端执行器的位置,并比较其相对于各自 T-pose 的位移。设 E 为两个域中定义的共享语义末端执行器集合(包括左/右手及左/右脚),并设 FK_k(q,t) 表示末端执行器 k 在第 t 帧的位置。为了消除同一具身(embodiment)内不同序列间的差异,相应的位移会根据该具身特有的、基于静止姿态计算出的身体尺度常数 S 进行归一化处理。
C. 物理可行性约束
无监督重定向(retargeting)往往会出现物理上不可行的伪影,例如足部滑动、基座悬空以及违反机械限位。为了增强在真实机器人上的部署能力,在训练过程中引入明确的足部接触、足部高度及关节限位约束。除非另有说明,以下约束均适用于通过 G_B→A 生成机器人运动 qˆ_A 的过程。
足部接触约束:利用足部速度,从源人体运动(域 B)推断出一个二值接触指示器 c(m)_B。m标记脚索引,t定义时间,利用该接触门控机制,通过对目标足部速度施加惩罚,抑制域 A 中生成的机器人运动中足部滑动现象。
足部高度约束:为了进一步提高支撑阶段的物理合理性,生成的机器人运动中会对足部悬空现象进行惩罚。对于每个域,标称足部接触高度是根据 T-pose 预计算得出的,然后利用源域数据计算姿态权重掩码。这一基于高度的附加滤波机制剔除虚假的低速检测结果;因此,针对目标足部高度施加一项抗“漂浮”铰链惩罚。
关节限位约束:由于人形机器人具有严格的机械运动范围,超出这些限制的生成运动可能会损坏硬件或触发紧急停止。因此,引入一种关节限位损失,用于惩罚超出范围 [q_min, q_max] 的预测机器人关节角度 qˆA。
D. 完整目标函数
Human2Humanoid 的训练由复合目标驱动。除了针对重定向(retargeting)的损失函数外,还采用用于匹配数据分布的对抗损失、确保运动可逆性的循环一致性损失,以及用于正则化的身份保持损失。
为了稳定训练并提高生成质量,采用最小二乘 GAN (LSGAN) 目标函数 [23]。设 P_A 和 P_B 分别表示由非配对数据集 Q_A 和 Q_B 导出的经验运动分布。因此,在训练过程中会采样得到 q_A ∼ P_A 和 q_B ∼ P_B。对于每个采样的时间窗口,判别器会针对每一帧的每一个关节输出评分。因此,按元素(element-wise)计算 LSGAN 目标,并对所有关节和帧的平方误差求平均值。
实验设置
为了评估 Human2Humanoid 在骨骼拓扑结构、尺度和自由度存在显著差异的情况下的表现,在两个非配对(unpaired)运动域上对模型进行训练与评估。人类运动域构建自 Motion-X [24] 数据集,该数据集提供了SMPL-X 格式的大规模全身 3D 运动标注,涵盖广泛的运动语义和场景。机器人运动域则构建自 PHUMA(物理基础人形机器人运动数据集)[25] 中的 Unitree G1 子集。PHUMA 采用基于物理的滤波与优化技术,以减少诸如足部滑动(foot skating)和穿模(ground penetration)等常见伪影,从而提供一种更能反映机器人可执行运动的目标分布。
预处理:鉴于 Motion-X 和 PHUMA 在原始帧率和运动表示上存在差异,采用统一的预处理流程。两个域中的运动序列均被重采样至 30 Hz。利用步长为 1 帧的滑动窗口,将长序列分割为固定长度(64 帧)的时间片段,这意味着相邻片段之间存在 63 帧的重叠。随后,Motion-X 中的姿态参数被转换为关节旋转矩阵;PHUMA 中的 G1 关节数据同样被转换为旋转矩阵形式,并补充与根节点(root)相关的特征。关于根节点,不使用绝对世界坐标系下的平移量,而是利用帧间差分计算根节点的线速度作为输入,从而实现对绝对位置的平移不变性。同时,根节点的全局旋转矩阵被保留作为输入,且在训练过程中不进行偏航角归一化(即不去除朝向信息)。训练集与测试集的划分在各自域内独立进行。训练过程中不涉及时间同步或语义对应,严格遵循非配对学习的设定。
基线方法:针对 Unitree G1 机器人,将本方法与几种具有代表性的运动重定向(retargeting)基线进行了对比,其中包括两种基于优化的流程和一种工业级参考方案。(i) PHC retargeting [26] 是一种基于优化的 SMPL-到-人形机器人重定向流程,常用于生成人形机器人可执行的参考运动。(ii) GMR [10] 是一种基于优化的重定向方法,采用两阶段约束求解器及面向可行性的约束条件。 (iii) Unitree Retarget(闭源参考数据)是一套通过工业化流程为 G1 人形机器人生成的参考动作。它被用作高质量参考,而非可学习的基准(baseline)。