OpenHLM——全身VLA下的行走-操作:sonic作为运控底层,π0.5作为VLA的初始化策略
2026/6/27 3:07:09 网站建设 项目流程

前言

在过去的一个月(特指26年6月份),我司长沙具身团队做了一系列围绕着全身vla的工作

  1. 6.1,完成全身VR摇操系统SONIC的复现,从而可以进行全身数据的采集
    全身全套VR设备仅需五千,如想精细则十万起步的动捕
  2. 6.11,8条数据打通了全身VR摇操下的「采-训-推」全流程
    全程自主走到桌子旁,自主抓取
  3. 6.15,今天首次把灵心巧手的手跟宇树打通
    实现全身自主VLA下的采训推全流程
  4. 6.16,完成全身vla下的自主桌面收纳任务
    先自主走到桌子旁
    后自主抓取饮料瓶放到盒子里
  5. 6.18,可能是国内第一个基于全身vla下
    双足人形的箱子搬运实验

第一部分 OpenHLM: An Empirical Recipe for Whole-BodyHumanoid Loco-Manipulation

1.1 引言、设计目标与任务集

1.1.1 引言

如原论文所说,人类在进行复杂的“行走-操作”(loco-manipulation)任务时,会协调全身各个部位的运动,例如用脚踩踏板,或者下蹲去拿低处架子上的物品。人形机器人具有类似的人体运动链,原则上也拥有同样的潜能

  1. 然而,大多数现有的人形机器人系统会将躯干以上和以下的部分解耦,由不同的控制器分别控制
    2
    3
    4
    5
    6
    7
    8
    通常由逆运动学来驱动手臂,一个单独的、通过强化学习训练得到的控制器来驱动双腿,再通过导航指令和机体根部高度信号将两者拼接在一起

    这种建模方式在两个方面限制了全身协调:
    从视觉效果上看,动作显得机械且不自然;
    从功能上看,下半身仅仅扮演一个可移动底盘的角色,而不是参与操作的主动主体,使得人形机器人在本质上更类似于一个带轮子的双臂平台
  2. 鉴于此,能够在机器人完整运动链上进行统一推理的协同全身控制栈被视为未来的发展方向 [9,10],但其设计空间迄今仍 largely 未被系统探索
    一个自然而然的起点是最近在此类栈中出现的两级层次结构[10]:一个高层的视觉-语言-动作(VLA)模型[11],将语言和像素映射到全身指令,以及用于跟踪这些指令的低层控制器 [12,13]

这种分解带来了三个问题

  1. 首先,控制器及其之上的遥操作接口决定了可以采集到什么样的示教数据;那么它们应该如何设计?
  2. 其次,VLA 必须能够处理具有人形结构的完整自由度,而许多广泛使用的VLA 主要面向静态和轮式双臂平台 [14,15];那么哪些适配才真正关键?
  3. 最后,一旦这一流水线搭建完毕,全身遥操作的成本又过高,难以为每一个新物体和新指令大规模采集数据;那么能否用更廉价的数据源来弥补这一缺口?

本文通过一项实证研究来回答这些问题,该研究被组织成一份路线图,由三阶段的受控单变量实验构成『I)比较用于低层全身控制器的遥操作接口,并最终采用基于关节的接口;(II)沿着若干设计轴,将操作类 VLA 适配到具身机器人的完整动作空间;(III)通过将完整的行走-操作数据与静态遥操作或 HuMI [1] 示范联合训练,将策略扩展到新物体和新指令』:

  1. 全身控制器与遥操作
  2. VLA 模型设计
  3. 异构协同训练

遵循这一路线图,作者推出了 OpenHLM(Open Humanoid Loco-Manipulation),他们发现

  1. 第一,遥操作接口至关重要:基于关节层级的全身遥操作接口优于常见的替代方案,例如仅部分暴露仿人机器人自由度的 VR 三点控制
  2. 第二,尽管在本体结构上存在巨大差异,但在静态和轮式双臂平台上预训练的 VLA 令人惊讶地能够很好地迁移到仿人机器人的全身动作空间;
    然而,在保留演示数据上的动作 MSE 与真实世界任务进展之间的相关性较差,因此它是一个糟糕的代理指标
  3. 第三,与更廉价的仅操作数据源进行联合训练,例如固定足部、无移动的静态遥操作以及 HuMI [1](UMI [16] 的仿人版本)
    可以在无需针对这些目标进行额外全身遥操作的情况下,将策略扩展到新物体和新指令

1.1.2 设计目标与任务集

首先,明确设计目标

作者为物理仿人行走—操作系统提出三项期望目标。下文1.2节 路线图的每个小节都被构建为对其中一项目标的回应

  1. 全身原生统一控制
    由单一策略同时控制仿人机器人所有关节,将手臂、膝盖和双脚都视为可用于操作的潜在执行器
    在常见的解耦建模下,可操作空间被压缩到类似轮式双臂平台的范围;任何直接调用下肢的行为都超出了该控制器可表达的行为空间
  2. 具备语言可引导性,并且对每个任务的数据利用要高效
    单一策略应能在多种任务中驱动类人机器人,并通过语言提示进行引导,而不是依赖切换不同的检查点(checkpoints)。每项新技能都应能从数量适中的示范数据中学会
  3. 可通过廉价数据实现可扩展性
    全身类人机器人遥操作既耗时又费力。系统应当利用更廉价、异质的数据源来降低对全身遥操作数据的需求,从而更快地将技能扩展到新的物体和指令上

因此,对应的基准也就出来了,即HLM-12 基准

HLM-12 基准包含12 个语言条件任务,被组织为四类能力家族,针对全身行走-操作行为的不同方面。图2 展示了每个家族中的一个代表性任务

  1. 带行走的抓取与放置
    策略将行走、抓取和放置组合为单次rollout(例如,Cola Placement)。这些任务原则上可以通过解耦控制实现,因此对任何方法来说都是基本能力检验
  2. 全身工作空间扩展
    这些任务开始利用人形形态:一些目标物体位于仅靠上半身关节活动无法覆盖的范围之外,因此策略必须协调髋关节屈曲、膝关节弯曲和躯干俯仰与手臂动作,以将末端执行器带到位姿(例如,Shelf Cube Transfer)
  3. 使用身体部位作为操控器
    这一类任务更进一步:非手臂身体部位本身充当末端执行器,执行操作而非仅仅支撑操作(例如,在BottleDisposal 中,脚踩下垃圾桶的踏板将其打开)
    此类行为超出了可由解耦控制器表达的范围
  4. 在环境约束下的行走-操作
    这里的难点来自限制可行动作的环境或接触约束:物体几何形状可能强制特定的操作轨迹(例如,Sword Extraction 必须沿着剑的轴线拉出),或接触需求可能约束行走(例如,Cart Pushing 必须在协调行走的同时保持稳固的抓取姿态)

最后,对于评估协议

作者采用统一且严格的评估协议。除非特别注明,对于每一个(策略,任务)组合,都在真实环境中进行五次相互独立的 rollout 评测

在这五次 rollout中,目标物体会被放置在不同的位置,并且每一次 rollout 都会引入不同的干扰物体布局。对于每个任务,作者在所有策略之间共享相同的五种初始场景配置,以确保公平对比

且将每一次 rollout 的得分定义为区间 [0,1] 内的任务进度比例,对每个子阶段给予部分得分。与二元成功率相比,任务进度能够刻画更加细致的失败模式。每个任务的打分细则列于附录 A

且在报告均值的同时给出标准误差

1.2 构建全身行走-操作一体化系统:全身VLA的路线图

接下来,作者通过一系列可控实验、在每个阶段做出一次设计决策来构建该系统,分为三个阶段,以回答第 §1 节中提出的问题。

  1. 控制器与遥操作(§3.1):如何设计控制器及其遥操作接口,以获得高质量的全身示教数据
  2. VLA 设计(§3.2):需要对为静态和轮式机器人构建的 VLA 进行哪些改造,才能将其转化为适用于全身人形机器人的策略
  3. 异质协同训练(§3.3):是否可以利用更廉价的数据来源,将策略的能力扩展到仅靠全身遥操作演示所无法覆盖的范围

1.2.1 低层控制器与遥操作

作者采用两级层次化控制框架,这与近期的人形机器人行走-操作一体化系统栈的做法一致 [7,17,8,10]

  • 高层策略(在数据采集阶段为人类操作员,在部署阶段为学习得到的 VLA)以视觉和语言为输入,以低频率(通常为 10 Hz)输出全身参考指令
  • 一个轻量级的低层控制器接收这些指令,并以更高频率(通常为 50 Hz)输出目标关节位置,随后由 PD 控制器进行跟踪

在这一框架固定之后,随之而来的就是两个设计问题

对于开篇问题:高层策略与低层控制器之间的接口应当是什么样的?此外,低层控制器本身应当满足哪些性质?作者从两个维度研究远程操作(teleop)接口

  1. 首先是表达能力:只暴露类人机器人部分自由度的接口,会在设计上就使某些任务变得不可实现
  2. 其次是示范质量:即便表达能力相近,不同接口在其引出的示范质量上仍可能存在差异,而这会直接影响到学习到的策略
  3. 在低层控制器方面,作者研究了一个强烈影响远程操作体验和数据质量的参数:未来帧预览延迟,即控制器在跟踪参考运动之前,能够提前看到该参考运动的时间长度

第一,对于基于关节的全身遥操作优于解耦控制和VR 三点控制

作者比较了三种具有代表性的、适用于当前人形体行走-操作系统的遥操作方法:

  1. 解耦控制遥操作
    上半身和下半身是两个解耦的系统
    操作者提供的目标(头部和双手腕)通过逆运动学映射到上半身关节
    而一个基于RL 训练的下半身控制器在以上半身指令为条件的情况下,跟踪底座速度和根部高度指令


    这种形式被包括AMO [6]、Ψ0 [8] 和GR00T N1.5/N1.6 [7] 在内的最新系统广泛采用;作者在此使用GR00T 变体[18]
    在不计入两个夹爪维度的情况下,宇树G1 上的动作空间为21 维:双臂关节位置(14) + 腰部关节位置(3) + 根部高度(1) + 导航指令(3)
  2. VR 3 点遥操作
    人形机器人遥操作中广泛使用的一种方案[12, 13];作者在此采用其SONIC 变体[13]
    操作者通过VR 头显提供头部和手腕位姿
    并通过其摇杆给出导航指令,一个学习得到的运动学运动规划器生成下半身运动
    从而得到由三个上半身关键点和下半身关节位置组成的混合指令,并由SONIC 控制器进行跟踪
    动作空间为24 维:左手腕位姿(7) + 右手腕位姿(7) + 头部位姿(7) + 导航指令(3)
  3. 基于关节的全身遥操作
    一个便携式动作捕捉设备(此处为带有身体追踪器的PICO VR 头显[19])捕捉操作员的全身动作,并通过GMR [20] 将其实时重定向到每个仿人关节,生成的关节轨迹由通用运动跟踪器(也使用SONIC)进行跟踪
    动作空间是32 维的:双臂关节位置(14) + 双腿关节位置(12)+ 腰部关节位置(3) + 根部横滚/俯仰角和偏航角速度(3)

作者选择了三个强调不同能力的任务,在每种遥操作方式下为每个任务收集匹配的数据(40 个示范),并为每种遥操作方式训练一个VLA(VLA 的细节见§3.2)。结果见表1

  • 基于关节的全身遥操作是唯一完成所有三个任务的接口,在每次执行中通过10-12 步脚步达到了80 %-87 % 的任务进度
    两种替代方案以不同方式退化。解耦控制以小而明显不自然的步伐行走,在Cola Placement 任务上平均需要42.3 步脚步(相对于基于关节的膨胀了3.5×);
    Bottle Disposal 任务则无法完成,因为踩下踏板需要该控制器无法表达的脚部运动
  • VR 三点遥操作产生的策略在Cola Placement 任务中在可乐罐前优柔寡断地停滞不前,将每次执行时长膨胀到67.8 s 并将任务进度降低到40 %
    且Shelf Cup Transfer 和BottleDisposal 这两个任务从构造上就是无法完成的

基于这些结果,作者因此采用基于关节的全身遥操作作为数据采集接口

第二,关节空间重定向优于原生 SMPL 录制

SMPL [21] 是一种自然的人体全身运动表示方式。将 SMPL 用作动作表示,可以跳过关节式采集所需的在线重定向步骤,从原理上消除由不完美重定向器带来的误差

  1. 作者测试了这一替代方案,称为基于 SMPL 的全身遥操作;SONIC 控制器原生接受 SMPL 输入,因此可以直接作为替换方案使用
  2. 其动作空间为 81 维:SMPL 关节位置(72 维,来自 24 个关节 × xyz)+ 手腕关节位置(6 维,用于精细手腕控制)+ 根部滚转/俯仰角与偏航角角速度(3 维)

在 4 个任务子集上,作者为每种遥操作方式收集相同数量的示教数据;二者在操作员体验、运动质量和吞吐量方面具有可比性。随后,作者比较在各自数据集上训练得到的 VLA;结果如图 3 所示『基于关节vs. 基于 SMPL 的全身远程操控

在关节空间训练得到的数据,其平均任务进度达到 88%,而基于SMPL 的仅为 75%。两种主要的失败模式构成了这一差距的大部分

  • 在 Bottle Disposal 任务中,基于SMPL 训练的策略会抬起脚跟却没有足够抬起脚趾,从而无法提供足够的间隙来压下踏板
  • 在 ColaPlacement 任务中,它有时会走得离桌子太近,把易拉罐碰倒

这两种失败情况均未出现在收集的演示中,作者将这一差距归因于行动空间维度要高得多(81 对 32):鉴于人体的运动学链条,SMPL 的额外维度在很大程度上是冗余的,然而 VLA仍然必须学会对它们进行整体协调,而这种更为困难的学习问题会表现为上述抬脚高度和行走距离的误差。基于这一发现,作者将在数据收集过程中在线地将全身示范重新映射到机器人的关节空间

第三,未来帧预览时延:0.2 s 在平衡行走与操作两方面表现最佳

  1. 作者通过动作捕捉训练的全身控制器暴露出一个可调节的预览时延,用于控制它能够看到多远未来的参考动作。更长的预览时间可以带来更平滑的动作,但也会在操作者发出指令与其被执行之间引入额外延迟
  2. 作者在 Cola Placement 任务上对进行遍历,在每个设置下收集相同数量的示教(40条),在各自的数据上训练一个 VLA,并以平均示教时长作为远程操作难度的代理指标。结果如图 4 所示——未来帧预览延迟扫描

  • 时,机器人响应最灵敏,静止操作手感最佳,但在数据采集和测试中,运动表现出卡顿和” 跺地” 现象
  • 在∆t = 0.6 s 时,累积延迟使操作员难以承受:演示时长从∼35 s 跃升至41 s,任务进度骤降至13 %
  • ∆t = 0.2 s 达到了最佳平衡,在演示时长(35.2s)与零预览情形基本不变的情况下,实现了67 % 的任务进度4

这一发现对流程中的多个远程操作者都成立,且∆t = 0.2 s 在之后的所有任务上都产生了高质量的演示。由此,所有后续阶段所构建的数据采集流程得以确定:基于关节的全身遥操作,在线重定向到机器人关节空间,预览延迟为0.2 s

1.2.2 全身 VLA 策略设计

接下来转向高层策略。一个很有吸引力的起点是使用预训练的 VLA,它已经具备视觉-语言推理能力以及操控先验

然而,现有的 VLA 几乎全部面向静态或轮式双臂平台;目前没有任何一种是专为类人机器人行走-操控一体任务而设计的

对于开篇问题:如何将一个在静态和轮式双臂平台上预训练的 VLA 适配为适用于整躯人形机器人的策略?在这一过程中,哪些设计选择真正起关键作用?

作者将探索划分为三个方向:

  1. 动作与本体感知接口——将 VLA 原始的低自由度动作空间适配为人形机器人高自由度的控制指令
  2. 预训练的作用——是否需要机器人预训练(π0.5[22]),抑或仅依靠视觉-语言预训练(PaliGemma [23]),甚至从零开始训练就已经足够
  3. 更快速的动作生成——多步 flow matching [24] 是否可以被单步推理所取代。作者设定一个默认配置,并在 4 个任务子集上一次只消融一个组件;结果如图 5 所示

第一,动作和本体感受界面:适配几乎不影响性能

作者使用π0.5 [22]作为默认骨干网络,并保持其内部结构不变,而是专注于VLA 与人形体之间的接口。根据构造必须改变两点:输出动作向量和输入本体感受状态。围绕这两个轴我们做了四种设计选择的消融

  1. 动作投影初始化
    π0.5 的动作投影支持最多32 维动作,但作者的34 维动作向量(来自§3.1 的32 维加上两个平行夹爪维度;一个灵巧手会使其更高)需要对其进行尺寸调整
    作者比较了随机重新初始化与权重“手术”(默认),后者在输入和输出线性投影层中保留前32 维的预训练权重,只随机初始化新增的条目
  2. 动作排序
    π0.5 预训练的动作向量布局为[left arm, left gripper, right arm, right gripper]
    可以保持这一布局,并在其后附加在末端使用针对人形机器人的腰部和腿部关节排序(默认),或者选择一种全新的人形原生排序方式(例如先排列双腿)
  3. 绝对 vs. 相对动作目标
    预测绝对关节位置(默认),或者预测相对增量,即将每个动作块中的动作都重新表示为相对于该块中第一个动作的变化量
  4. 本体感知输入
    头部和手腕上的摄像头无法清晰观测下半身;将完整的关节位置向量作为输入(默认)可以让策略直接获取自身的身体姿态,但有可能导致策略偏向利用这种本体感知“捷径”,而不足以利用视觉信息

作者分别对每个选项单独做消融实验,同时将另外三个选项保持为默认设置;结果如图 5 中的琥珀色分组所示

可能其中各种柱子的颜色 眼花缭乱,没关系 我给你一目了然的标出来,如下所示

  • 琥珀色

    接口消融(每个柱状条仅颠倒一个设计选项);性能下降幅度较小,且没有哪个单一选项构成瓶颈
  • 玫红色

    预训练消融;机器人预训练(π0.5)起主导作用,而仅用PaliGemma 或从零开始训练则性能急剧崩塌
  • 鼠尾草色

    单步动作生成;尽管其验证集动作 MSE 更低,但两者相比 10 步基线仍低约 20 个百分点

具体而言

  1. 在每一种情况下,“错误”的选择(随机初始化的投影、人形机器人原生的关节顺序、相对动作目标、去除本体感受输入)都会带来 4 个任务的平均任务进度略微下降,但不会导致 rollout 行为或失败模式出现质的变化
    这些数值上较小的下降最合理的解释,要么是鲁棒性略低,要么是 5 次 rollout 评估的噪声下限
  2. 就人形机器人 VLA 适配而言,这四个选择中的任何一个本身都不是瓶颈。然而,这并不意味着这些选项可以被任意组合:作者宣称,他们的额外实验表明,同时移除本体感受输入并切换到相对动作会导致灾难性失败,因为策略会很容易漂移到无法恢复的分布外状态

由于没有任何单一替代方案优于默认设置,作者在本文其余部分都保留默认配置:即将对 action projection 采用权重手术(weight surgery)、使用预训练的双手关节顺序、采用绝对关节目标,并将本体感受作为输入

第二,在非人形机器人上的预训练可以很好地迁移到仿人VLA 适配

固定接口后,作者进一步探究:在存在显著具身差异的情况下,基于非人形机器人数据(静态和轮式双臂)的预训练是否仍然能够迁移到人形机器人上,或者仅仅依靠视觉-语言骨干网络是否就足够

作者比较了三种骨干网络初始化方式:

  1. π0.5(在非仿人机器人上预训练)
  2. PaliGemma(相同架构,但没有机器人数据)
  3. 随机初始化

结果如图5 中的玫瑰色分组所示。差距非常明显:π0.5 达到91 % 的平均任务进度PaliGemma 降至60 %而随机初始化则跌至42 %

在这一差距背后隐藏着一个惊喜:在保留的验证集上的动作均方误差(MSE)中,π0.5 初始化模型与PaliGemma 初始化模型在整个微调过程中几乎无法区分

然而,在机器人上它们的表现却急剧分化:以PaliGemma 初始化的策略在抓取方面持续较弱,并且很少能从一次失败的抓取中恢复,而以π0.5 初始化的策略则能够流畅地重试。由此得到两个结论

  1. 首先,π0.5 的操作先验,尤其是其预训练数据中隐含的闭环” 看到错误、修正、重试” 的行为,可以在存在具身差异的情况下迁移
  2. 其次,动作MSE 是衡量机器人预训练价值的一个很差的代理:两个动作MSE 匹配的模型在真实机器人上的行为可能截然不同
    随机初始化则以不同的方式失败:策略学会了一种粗糙的行走步态,但其操作能力几乎完全崩溃
    从双臂预训练到人形机器人的跨具身差距是客观存在的,但与有无机器人预训练之间的差距相比却微不足道。作者将在所有后续实验中从π0.5 进行初始化

// 待更

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询