李飞飞文章为世界模型提供清晰框架,三类模型融合重塑机器与物理世界关系
2026/6/5 19:45:54 网站建设 项目流程

世界模型融资火爆,概念却模糊不清

在过去18个月里,超100亿美元资金流入世界模型与机器人AI公司。使用世界模型的公司融资规模,甚至超过专门构建世界模型的公司。世界模型火了,但实际概念众说纷纭。今早,李飞飞和World Labs团队发表《世界模型的功能性分类》长文,她直言“世界模型”是当今AI领域最重要且最被过度使用的术语之一。上个月,MoE Capital的Henry Yin和Naomi Xia也表示,多数被冠以“世界模型”之名的并非真正的世界模型。

李飞飞文章提供清晰框架,划分三类世界模型

李飞飞文章引入强化学习经典结构,完整解释“世界模型”定义,将生成模型、物理模拟系统与具身智能方法从功能上划分为“渲染器、模拟器与规划器”三类世界模型。这不仅是技术分类,更像未来主导权路线图,不同技术路径首次在统一坐标系中比较。李飞飞指出,三者开始融合,边界消失时将重塑机器智能与物理世界关系,这是空间智能长期演进轨迹。她认为终点是统一世界模型,能渲染照片级视图、生成物理准确结构、规划行动序列并切换输出模式。她文末点明,语言让机器谈论世界,世界模型让机器理解、想象、推理并与世界互动,真正决定下一阶段AI上限的是“模拟能力”。

世界模型概念混乱,源于物理世界与语言模型差异

此前文章论证空间智能是AI下一个前沿,世界模型是路径。如今众多“世界模型”中,哪些组件构成能力及用途待明确。语言模型赋予机器概念、词汇和推理掌控力,但物理世界运行在不同底层结构。语言模型学习文本统计结构,世界模型学习时空统计结构。这使“世界模型”重要又被过度使用,计算机视觉、机器人学等领域对其指代不同,如视频模型、语言模型、物理引擎都被称为世界模型。古希腊人对世界构成未达成一致,AI领域也面临同样问题,此时正需精确性。

从强化学习图式理清世界模型循环结构

理清混乱可从强化学习教材中“部分可观测马尔可夫决策过程”(POMDP)图式开始,“世界模型”术语源于此。智能体(人、机器人或软件系统)行动影响世界状态,智能体无法直接看到状态,接收观测(光子、传感器读数、像素),新观测引导新行动,循环往复。“状态”指物理学和机器人学中对世界某时刻的完整描述,是底层现实,不可直接观察,观测是部分视图,行动是响应。这个循环构成现代“世界模型”术语结构基础,其思想可追溯到Kenneth Craik 1943年观点,如今不同世界模型是循环的不同投影。

世界模型的三类功能及特点

第一类“渲染器”输出观测,以像素形式呈现,重要指标是视觉保真度,如视频模型、交互式系统。这类模型无三维结构显式理解,生成“看起来是什么”,而非“实际上是什么”。第二类“模拟器”输出状态,是几何、物理或动态上忠实于世界的表示,人类和计算机程序可计算和交互。其契约是结构性的,服务专业人士和计算机程序。第三类“规划器”输出行动,给定观测和目标,回答智能体下一步行动,是渲染器反向过程。这三类涵盖多数实际落地系统,虽有区分但底层知识相同,研究正模糊三者界限。

模拟器是关键,连接渲染器与规划器

三类中,模拟器获公众关注最少却最具决定性。渲染器商业成熟,产品在消费级和企业市场扩张,但优化视觉合理性而非物理准确性,无法用于设计建筑或训练机器人。规划器有吸引力但处于初期,与机器人学习领域相关,演示多在实验室环境,与现实应用有差距,但商业投入大。模拟是连接渲染器和规划器的桥梁,掌握模拟能力的模型可投射视觉外观和行动预测,商业空间大,如NVIDIA的Omniverse瞄准超万亿美元潜在市场。该领域存在数据稀缺、“仿真到现实”差距、生成式模拟器风险、计算成本高等问题。World Labs的Marble是进入该领域的第一步,能生成三维环境并输出相关数据,但只是开端,领域发展轨迹更长,三类界限逐渐消融。

三类模型融合,未来发展可期

当前领域重要趋势是三类模型融合,渲染、模拟和行动所需知识本质相同。如预训练视频渲染器可建立渲染器与规划器桥梁,Marble打破渲染器与模拟器界限,各层向交互系统转变。逻辑终点是统一世界模型,但面临数据分布不均衡、视觉美感与精确性矛盾等挑战,调和这些是核心开放问题,也是World Labs推进Marble的方向。自1980年代末,领域押注丰富世界模型能让智能体观察、构建和行动,如今融合驱动新一代研究,重塑机器智能与物理世界关系。语言让机器谈论世界,世界模型让机器理解、想象、推理并与世界互动。未来,世界模型将如何进一步发展,重塑AI领域格局呢?

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询