在齐天智能体的具身研究方向中,我们一直在为 WAM 世界模型搭建一层物理认知底座。当下绝大多数机器人依靠海量交互轨迹做统计拟合,见过千百次壶才能学会倒水,换一个陌生器物就容易出错。我们 “具身万物” 的核心目标,就是跳出样本堆砌,让 AI 读懂物理世界的底层结构,少数几次尝试,就能自主算出抓取、用力、操作与避险的全套方案。
我沿着一个问题拆了很久:一个壶,你识别它的时候,你识别的是什么?
是 “壶” 这个整体,还是 “腔体、把手、导流嘴、盖子” 这些部件?如果是后者,那这些部件本身又是由什么组成的?
我一路拆到了底。
我开始拆开了一个把手。
什么是把手?它是一段纵向延伸的硬质结构,一端连接到主体,中间有一段适合抓握的空间。
“纵向延伸” 是什么?它不是一个 “部件”,它是一种空间关系 —— 物质在某个方向上占据的空间远大于其他两个方向。这是不可再分的空间拓扑概念。
“硬质” 是什么?它不是单纯的材质标签,它描述的是能量如何流过这个结构。当你施加力时,能量几乎无损地从施力点传递到另一端。这是能量传递规则。
“适合抓握” 对应操控维度的因果映射:手掌施加夹持力,作用力沿结构传递至物体主体,这是外部输入与结构反馈的固定因果链路。
所以 “把手” 从来不是一个基础单元。它是三个不同维度底层规则耦合出来的复合产物:
- 结构规则:物质在空间中的分布形态
- 能量规则:能量在物质中的传递方式
- 操控规则:输入力与输出力的因果映射
如果不向下拆解,很容易误以为 “把手” 是不可再分的基本单位。拆到底之后就能看清,它只是多层底层规则叠加涌现出来的表象。
我拆到了底:18个本原
我用同样的思路拆解腔体、底座、导流嘴、铰链、活塞、刻度、滤网…… 持续剥离所有复合概念,直到无法再拆分,最终得到 18 个最小本原原子,分为四层,每层只承载单一维度的底层逻辑:
结构层(5 个)—— 描述空间和边界的拓扑关系:围合域、连通通道、延伸域、分支节点、分层曲面。
能量层(5 个)—— 描述能量的转化和流动:能量阻隔、能量蓄存、能量耗散、弹性储能、刚性传力。
模式层(4 个)—— 描述空间与能量耦合后的动态规则:介质筛分、定向输运、重力势能释放、静态稳态。
操控层(4 个)—— 描述外部输入与系统输出的因果映射:夹持因果、支撑因果、扭转因果、按压因果。
18 个本原,不是之前混用的 39 个部件,也不是 42 个复合耦合元,是真正拆到尽头的底层原子。日常我们口中的腔体、把手、导流嘴都不属于本原,而是多层本原加权耦合形成的二阶复合单元。
本原的组合逻辑清晰统一:
延伸域 + 分支节点 + 刚性传力 + 夹持因果 = 把手;
围合域 + 分层曲面,叠加重力势能释放模式本原,耦合形成腔体复合单元;
腔体 + 把手 + 连通通道 + 环形闭合 = 壶。
18个本原原子能做什么
我用这套本原规则开展多组日常物体测试,验证整套体系的区分、判定与边界识别能力。
如果将这套本原架构对接 WAM 机器人,它的核心价值会完全体现。
名字不重要,结构才重要
这也是纯视觉大模型、传统 WAM 和本原架构的本质区别:视觉模型只会输出 “这是杯子”,随后调取过往训练数据里的操作经验;本原架构直接输出「围合域 + 刚性传力 + 重力势能释放 + 夹持因果 + 支撑因果」的底层组合,从空间、能量、动态规则、交互因果四层直接推导:这是带握持位的刚性容器,可平放,倾斜会流出内容物。它可以不知道这个物品叫“杯子”,但全程无需检索海量历史样本,一切结论由底层结构规律内生得出。
《金刚经》有一句经典句式:“所言… 者,即非…,是名…”。一件事物被赋予名称之后,标签就已经脱离了它的客观本质,人类只是借用名字完成指代。
当机器人面对从未见过的陌生物体,它完全不需要知晓这件物体的人类命名。只需拆解四层本原特征,就能自主推导出一整套完整、安全的交互操作策略:
结构层决定抓取位置:围合域搭配分层曲面,说明底部平整,可从侧面或上方靠近;延伸域加分支节点代表存在握持柄,优先扣握把手而非挤压主体。
能量层决定夹持力度:能量耗散对应脆硬材质,需要轻拿轻放;刚性传力结构可使用常规夹持力,不易形变;弹性储能的柔性物体允许适度挤压,但会发生形变。
模式层决定使用逻辑:重力势能释放意味着倾斜后内部介质会流出;定向输运代表流体仅沿单一通道排出,操作时需对准承接容器;静态稳态说明平放后物体可保持稳定,不会自主滑动倾倒。
操控层划定交互边界:夹持因果标注最优握持点位;按压因果标记可触发功能的施压区域;支撑因果告知稳定放置平面。
四层维度的信息,完整输出抓取点、力度阈值、运动轨迹、使用规范、破损风险全套操作方案,物体名称反而成了多余的附加标签。
已有完整匹配模板的物体识别稳定可靠,杯子、碗、漏勺、砂锅都能精准匹配对应类别。更有价值的是无模板物体的处理逻辑,两组典型测试案例足以体现四层本原协同区分的核心能力:
剪刀和指甲刀,表层结构高度趋同 —— 二者都具备长杠杆臂、旋转铰接副、刃口剪切结构。在只依靠结构部件匹配的旧方案里,剪刀极易被误判为指甲刀。引入四层协同加权、操控层参与判定后,二者的差异被精准捕捉:指甲刀标准操控逻辑为 “夹持 + 按压”,手握柄同时按压上端完成施力;剪刀仅依靠 “夹持 + 扭转”,双手握持柄相互扭转做功,不存在按压触发的因果链路。操控层的差异化特征直接完成过滤,剪刀最终正确输出 “无匹配”。但无匹配并不影响理解功能与使用
保温壶匹配壶模板,匹配度达到 1.0。它只是叠加了能量阻隔、能量蓄存两类能量属性的衍生容器,核心结构(围合腔体 + 平面底座 + 握持柄 + 单向导流通道)、核心模式(重力盛装倾倒、流体定向输运)、核心操控(支撑因果、夹持因果)全部与壶模板要求完全契合。系统无需为保温壶单独新建模板,依靠本原组合的天然泛化能力,让子类自然归属父类模板。
整套测试里,台灯、剪刀、牙刷、锅铲均无对应专属模板,系统全程不会强行粘贴近似标签;保温壶作为壶的衍生形态则精准匹配,所有判定逻辑自洽。无论匹配与否,引擎内部都会完整输出四层本原推导得出的功能、受力、交互约束,不会因缺少物体名称丢失关键信息。
拆解到本原底层,我们会面对完全相同的规律:“壶” 本身并非独立存在的客观实体,只是人类赋予的代号;它的真实本体,是围合域、延伸域、刚性传力、夹持因果等本原原子在空间中耦合形成的稳定结构。名字只是临时标签,多层本原组合而成的底层结构,才是事物不变的本质。
这不是一套优化物体识别精度的工具,而是一套全新的认知世界的范式:不再把世界看作无数离散、孤立物体的集合,而是看作有限底层本原、无限耦合组合生成的完整系统。
传统拟合 AI 的致命缺陷是:无模板=不认识=不会操作,只能依赖预设标签和训练样本,一旦走出数据集立刻失效。
而齐天具身万物架构的核心优势是:认知来源于本原结构,不来源于标签记忆。
哪怕系统对台灯、剪刀、锅铲、牙刷全部输出 “无匹配”,它依然完整看懂了:结构拓扑、材质软硬、是否易碎、能否盛装、能否挤压、该抓哪里、该用多大力、哪些动作禁止。
当机器人不用依靠标签检索经验,而是依靠底层结构自主推导如何安全、合理地交互,它就不再是单纯复刻轨迹的执行器,而是真正在理解眼前的世界。
这套本原架构也精准解决当前具身智能行业的核心痛点:纯数据驱动的 WAM、多模态大模型高度依赖标签与历史样本,每一类全新物体都要采集海量交互数据完成拟合;依托本原结构的内生推导能力,陌生物体无需提前训练,初次观测即可输出合规、安全的操作方案,大幅降低开放场景机器人落地的数据成本。
拟合只能复刻见过的世界,结构才能理解从未见过的世界。