自动驾驶、机器人、视觉AI,这些物理世界的智能体正在从实验室走向现实,但存在拦路虎:数据不够、场景覆盖不全、工具链割裂。
NVIDIA在CVPR上发布了一套Physical AI Agent Skills,把从数据生成、仿真、策略训练到评估的整条链路串了起来,Cosmos 3大模型做底座,Agent Skills做抓手,三大方向同时推进,研究者的工作流从碎片拼凑变成一键串联。
自动驾驶的新武器
自动驾驶研究最头疼的事,不是模型不够强,是真实路上那些少见又关键的场景太难收集。
罕见交叉路口、诡异的路面几何、灯光突变、边缘行为,这些所谓"长尾"场景,开几百万英里也碰不上几次,偏偏它们才是训练和验证的核心。
物理AI研究的核心挑战从来不只是开发更强的模型,而是围绕模型搭建完整的工作流:重建真实场景、生成边缘案例、训练策略、评估行为、快速迭代。
这些步骤目前散落在不同的工具里,研究者花大量时间把它们拼起来,实验节奏被拖慢。
NVIDIA的自动驾驶Agent Skills,让研究者可以指派AI Agent自动完成从车队数据到场景重建、再到合成场景生成的完整流程。
这周早些时候,NVIDIA发布了Cosmos 3,一个面向物理AI的开放前沿模型,也是全球首个统一视觉推理、世界生成和动作生成的全模态模型。Cosmos 3在物理AI公开排行榜上全面领先,为物理AI开发提供核心能力。
Physical AI Agent Skills搭配Cosmos 3、NVIDIA库和仿真框架,让研究者从模型能力到可扩展的端到端工作流,速度快了很多。
Neural Reconstruction(神经重建)技能是自动驾驶方向的关键一环。它帮助AI Agent把车队采集的真实数据转换成可编辑的3D场景,用于仿真和合成数据生成。背后支撑的技术栈包括Omniverse NuRec、InstantNuRec、Harmonizer和HiGS加速渲染器,各自负责加速重建、提升场景真实感和生成新视角。
InstantNuRec尤其值得关注。它能在不需要逐场景优化的情况下,从图像快速完成3D高斯道路场景重建,把原本耗时的流程压缩到几乎实时。传统的3D高斯重建需要针对每个场景单独调优,InstantNuRec绕过了这一步,直接从图像出结果,对需要快速验证的研究场景来说非常实用。
可重复的仿真让研究者在同一场景下变换条件、对比系统响应、发现失败模式,这些能力远超纯靠真实数据能做到的范围。自动驾驶系统在某个交叉路口遇到强光眩目会怎样?改一下光照参数重新跑一遍,答案就出来了。
AlpaGym是一个开源的闭环强化学习框架,把策略推演和高保真仿真跟Agent Skills连接起来,在数千块GPU上横向扩展,帮助研究者从设置、推演到评估一路跑通。闭环强化学习的关键在于策略和仿真之间的实时交互,AlpaGym把这条链路打通了,而且能大规模并行。
OmniDreams是一个动作条件化的生成式世界模型,给仿真循环加入了照片级真实感渲染,实时生成响应策略动作的摄像头画面。策略做出一个转向动作,OmniDreams就实时渲染出转向后的摄像头画面,仿真和训练融为一体。
NVIDIA还发布了目前最强大的开源驾驶基础模型,Alpamayo 2 Super。这是一个320亿参数的推理型VLA(Vision Language Action,视觉语言动作)模型,能在整个驾驶栈中进行推理、规划和执行,面向更安全、可扩展的L4级开发和部署。320亿参数的规模在开源驾驶模型里相当少见,推理能力的加入让它不仅仅是个感知模型,而是能端到端参与决策。
视觉AI的破壁之法
视觉AI研究卡在哪?卡在数据上。零样本异常检测、合成异常生成、少样本缺陷识别,不管哪个方向,都需要大量受控样本来研究模型在视觉条件、物体状态或时序事件变化下的行为表现。想系统地获取这些样本?很难。现实中罕见缺陷出现的频率太低,靠生产线上碰运气收集,效率堪忧。
NVIDIA Metropolis Agent Skills让研究者和开发者能用AI Agent生成合成视觉场景,包括异常场景,同时支持数据增强和伪标注。这些技能受益于Cosmos 3的混合Transformer架构,其中一个推理Transformer负责分析观察结果,然后把指令喂给生成塔,帮助扩展具有物理基础的虚拟世界。
混合Transformer的设计很巧妙,推理和生成分工明确,推理模块负责"看懂",生成模块负责"画出来",两者配合让合成数据在物理合理性上有保障。
构建高精度视觉检测模型的研究者,可以用Defect Image Generation(缺陷图像生成)技能,在真实图像基础上创建不同表面的不同缺陷样本。工作流组合了Isaac Sim做仿真、Cosmos 3做生成、OSMO做编排和视觉语言推理,让研究者能创建罕见的视觉案例,然后验证模型是否正确响应。用真实图像做底,再在上面叠加缺陷变体,这种方式比纯合成更可信,又比苦等真实缺陷更高效。
对于视频AI Agent,NVIDIA Metropolis Blueprint for VSS(Video Search and Summarization,视频搜索与摘要)、NVIDIA TAO和Video Augmentation(视频增强)技能帮助从海量视频数据中提取洞见,微调模型,自动化构建和评估的循环。
视频数据量一大,人工看不过来,模型微调又需要反复试验,这些技能把搜索、摘要、增强、微调串在一起,研究者有了更可重复的方式,来开发能够检测事件、推理复杂场景、总结活动和发送告警的推理型视觉AI Agent。
机器人学习跑起来
教会机器人导航或操作,归根到底是迭代。对研究者来说,瓶颈在于构建足够多的受控环境和策略推演,来理解机器人在不同任务、不同场景、不同具身形态下的行为变化。通常的做法是把仿真环境、任务变体、策略训练和评估一个个拼接起来,全部手工完成,耗时耗力。
NVIDIA机器人Agent Skills让研究者可以指派AI Agent自动完成场景准备、仿真和机器人学习中最常见的开发步骤。底层框架包括Omniverse库、Isaac Sim和Isaac Lab。
Agent可以帮助启动仿真会话、构建场景、控制仿真、捕获数据和验证环境。Isaac Lab的技能支持强化学习设置、训练、评估和自定义环境开发。以前需要研究者手动配置的仿真环境,现在Agent可以代劳,研究者把精力放在策略设计上。
专门的技能进一步把工作流延伸到移动和操作领域。Isaac移动技能支持导航工作流,涵盖场景搜索、USD转换、环境注册、残差强化学习和策略评估。Isaac Lab的专用Agent工作流帮助完成仿真到仿真、仿真到现实的任务,比如环境构建、物理调试、排错和性能分析。仿真到现实的迁移一直是机器人学习的大难题,物理参数不对、环境差异太大,策略在仿真里表现良好,一到真机就崩。这些Agent工作流让调试过程更可控,缩小仿真和现实之间的差距。
医疗机器人方面,Cosmos-H-Surgical-Simulator通过生成逼真的手术机器人数据来推进研究,用于策略训练和评估。它直接从真实手术数据中学习,而非手工工程化的物理模型,帮助缩小仿真到现实的差距,支持自主手术任务的开发。手术场景对精确度要求极高,手工建模很难覆盖组织形变、器械交互这些细节,从真实数据学习是一条更靠谱的路。
Cosmos 3还能帮助生成合成数据和场景变体,然后用具身特定的行为和环境数据进行后训练,覆盖从抓取放置到灵巧操作的多种任务。不同形态的机器人需要不同的策略,Cosmos 3的后训练能力让同一个模型适配不同的具身形态。
CVPR 2026接收的论文中,多数引用了NVIDIA的技术,包括GPU、开源模型、仿真框架和CUDA加速库。
采用这些技术的机构覆盖卡内基梅隆大学、斯坦福大学、UC伯克利、清华大学、北京大学等全球顶尖实验室。NVIDIA的技术已经渗透到计算机视觉和物理AI研究的底层基础设施中。
NVIDIA在CVPR上还推出了多个开放研究挑战赛,帮助为物理AI建立基准。
AI City Challenge是智能城市应用方向的顶级计算机视觉竞赛,已经走到第十年,持续推动智能交通和城市感知技术的发展。PAI-AV Reasoning Challenge是一个新的开放基准,评估VLA模型用因果链标签解释驾驶决策的能力,让模型的决策过程从黑箱走向可解释。AlpaSim Closed-Loop End-to-End Driving Challenge测试自动驾驶策略在真实重建场景的闭环仿真中的表现,验证策略在真实世界复杂情况下的鲁棒性。
NVIDIA Physical AI Dataset在Hugging Face上的下载量已超过1500万次,Isaac GR00T X Embodiment Sim成为下载量最多的机器人数据集之一。新发布的数据集包括约50小时的人形物体交互数据,以及六个合成视频数据集,用于训练Cosmos 3,覆盖机器人、物理、数字人、自动驾驶、仓库安全和空间推理方向。
NVIDIA Physical AI Agent工具和技能已在GitHub上开源。
从Cosmos 3作为物理AI底座模型,到Agent Skills串联自动驾驶、视觉AI、机器人三大方向的工作流,再到开源数据集和基准挑战赛的生态建设,NVIDIA正在把物理AI研究从各自为战推向系统化作战。
自动驾驶的长尾场景、视觉AI的数据瓶颈、机器人学习的迭代困局,根本问题都是工具链的割裂。
当Agent能把碎片化的步骤串成流水线,研究者的精力就能从搭工具回到做研究本身。
参考资料:
https://blogs.nvidia.com/blog/cvpr-physical-ai-research-agent-skills/
https://github.com/NVIDIA/skills