从生成式 AI 到行动式 AI:下一代人工智能为什么需要“行动能力”
2026/6/7 1:51:13 网站建设 项目流程

从生成式 AI 到行动式 AI:下一代人工智能为什么需要“行动能力”

    • 一、核心问题:为什么“会生成内容”不等于“真正理解世界”
    • 二、关键思想:智能不是被动计算,而是在行动中生成的
    • 三、技术启发:大模型、强化学习、机器人和世界模型需要重新连接
    • 四、现实意义:为什么 Agent 时代更需要 Enactive AI
    • 五、未来方向:AI 可能从“数据智能”走向“行动智能”
    • 总结:AI 的下一步,不只是更会说,而是更会做

过去几年,人工智能的发展速度非常快。

从 ChatGPT 到多模态大模型,从 AI 绘画到视频生成,从代码助手到智能体 Agent,AI 好像正在从“工具”一步步走向“助手”,甚至走向某种更接近“智能体”的形态。

但是,一个很关键的问题也随之出现:

今天的大模型真的理解世界了吗?

它可以解释物理定律,可以描述人类情绪,可以写程序、做规划、回答医学和法律问题。可是,它的这些能力大多来自对海量文本、图像、视频数据的学习。它看过很多关于世界的描述,但并没有真正进入世界;它学习了人类经验留下的痕迹,却并没有形成属于自己的经验。

这正是 Enactive AI 想要讨论的问题。

Enactive AI 可以理解为“行动生成式人工智能”或“具身生成智能”。它强调,智能不是单纯从数据中提取出来的,也不是大脑或模型内部凭空构建出来的,而是在主体与环境的持续互动中生成的。

换句话说,未来 AI 的关键,可能不只是模型参数有多大、训练数据有多少,而是它能不能行动、能不能探索、能不能通过反馈修正自己,并在长期交互中形成经验。


一、核心问题:为什么“会生成内容”不等于“真正理解世界”

现在的大模型非常擅长生成内容。

我们输入一个问题,它可以给出一段结构完整、语气自然的回答;输入一段代码需求,它可以生成函数;输入一张图片,它可以描述图中发生了什么;输入一个视频片段,它甚至可以做摘要和推理。

这些能力当然很强,但它们背后的基本模式仍然是:

输入数据 → 模型处理 → 输出结果。

这个过程看起来像理解,但本质上更多是基于统计规律、语义关联和训练数据中的模式进行预测。

比如,一个语言模型可以解释“火很烫,不能直接用手碰”,但它并没有自己的手,也没有真的被烫过。它知道“烫”这个词经常和“疼痛”“危险”“高温”一起出现,也知道人类通常会避免直接接触火焰。可是,这种知道和人类真实经历过火焰、感受到热量、产生回避动作,并不是一回事。

这就引出了一个非常重要的区别:

AI 可以学习关于世界的描述,但不一定拥有关于世界的经验。

人类理解世界并不是只靠阅读文字完成的。婴儿学习世界时,并不是先读一本《世界说明书》。他会爬、会抓、会摔倒、会触摸、会听到声音、会看到结果。很多概念都是在身体行动和环境反馈中逐渐形成的。

比如:

看到一个杯子,不只是识别出“这是杯子”,还会理解它可以拿、可以装水、可能会碎、装热水时不能直接碰杯壁。

看到一把椅子,不只是识别出“这是椅子”,还会知道它可以坐、可以移动、可能会挡路、站上去可能危险。

看到一扇门,不只是识别出“这是门”,还会知道它可以推、可以拉、可以锁住,也可能打不开。

这些意义不是物体本身静态写好的,而是在“我能对它做什么”和“它会如何回应我”的关系中形成的。

因此,Enactive AI 要强调的并不是“AI 还不够聪明”,而是说:如果 AI 永远只是被动接收数据,它就很难形成真正的、可行动的世界理解。


二、关键思想:智能不是被动计算,而是在行动中生成的

Enactive 这个词的核心在于“行动”。

传统人工智能更接近一种“表征主义”的思路:外部世界是客观存在的,智能系统需要在内部建立一个世界模型,然后根据这个内部模型进行判断、规划和行动。

这种思路在很多任务中非常有效。比如图像分类、语音识别、机器翻译、文本生成,都可以通过大量数据训练出强大的模型。

但真实世界远比数据集复杂。

真实世界不是静态的,也不是完全可预测的。它充满变化、不确定性、意外情况和开放问题。一个智能体如果要在真实环境中长期生存和完成任务,就不能只是对已有数据做模式匹配,而必须通过自己的行动不断获得反馈。

Enactive AI 的核心观点可以概括为:

智能不是对世界的复制,而是主体在环境中的持续生成。

这句话看起来有点抽象,可以用一个简单例子说明。

假设一个机器人要学会抓杯子。

传统方式可能是先给它大量杯子的图片和抓取数据,让模型学习杯子的形状、位置、边缘和最佳抓取点。训练完成后,它根据摄像头看到的图像计算动作。

但真实场景中,杯子可能是透明的,可能装了水,可能表面很滑,可能放在桌子边缘,可能旁边还有其他物体。机器人第一次抓可能失败,第二次可能用力过大,第三次可能碰倒杯子。只有经过反复试错,它才能学到“这个杯子应该如何抓”“什么情况下不能直接抓”“手指应该用多大力”。

这类经验很难完全通过静态数据给出。

因为它不是单纯的视觉知识,而是视觉、动作、力量、反馈和结果共同形成的经验。

这也是为什么“感知”和“行动”不能被简单分开。

传统 AI 系统经常把任务拆成几个模块:

先感知环境,再理解环境,然后规划路径,最后执行动作。

但在人类和动物身上,感知与行动往往是同步发生的。我们走路时,不是先完整建模整个世界再迈步,而是一边走一边看、一边调整平衡、一边根据脚下反馈改变动作。

我们拿东西时,也不是先精确计算所有物理参数,而是在接近、触碰、受力、移动的过程中不断修正。

所以,真正的智能不是“先看懂再行动”,而是:

在行动中看懂,在反馈中修正,在经验中成长。

这正是 Enactive AI 与传统 AI 的重要区别。


三、技术启发:大模型、强化学习、机器人和世界模型需要重新连接

从当前技术发展来看,Enactive AI 并不是要否定大模型,而是提醒我们:大模型可能只是下一代智能系统的一部分,而不是全部。

今天的大语言模型具备很强的知识整合能力和语言表达能力,但它们缺少真实的行动闭环。它们能说出很多关于世界的规律,但这些规律主要来自人类已经记录下来的文本和数据。

如果未来要构建更强的 AI,就需要把大模型和其他技术方向结合起来。

其中最关键的几个方向包括:强化学习、机器人、世界模型和长期记忆。

强化学习和 Enactive AI 的关系非常密切。强化学习中有智能体、环境、动作、奖励和反馈。智能体通过试错来优化策略,这比单纯监督学习更接近“经验生成”的过程。

比如 AlphaGo 并不是只学习人类棋谱,它还通过大量自我对弈形成新的策略。这种自我探索让它不只是模仿人类,而是能发现人类未必总结过的下法。

这说明,智能系统如果只依赖已有数据,能力会受限于数据本身;但如果它能够主动探索,就有可能发现新的策略和新的知识。

不过,现有强化学习仍然存在很多问题。

许多强化学习任务的环境是封闭的,奖励函数是人工设计的,目标也相对单一。比如在游戏中得分越高越好,在机器人任务中成功抓取就加分。这种设置虽然有效,但距离真实世界中的开放智能还有差距。

真实世界没有一个永远清晰的奖励函数。很多时候,智能体需要自己判断什么重要、什么危险、什么值得探索、什么应该避免。

这就涉及自主性问题。

一个真正强大的 AI 智能体,不应该只是等待人类给它目标,然后机械执行。它应该能够在长期任务中维护自己的状态,评估行动后果,并根据环境变化调整策略。

机器人则是另一个关键方向。

如果 AI 只存在于文本窗口里,它永远很难获得真实世界经验。机器人提供了身体,提供了与物理世界交互的入口。摄像头、机械臂、触觉传感器、移动底盘、力反馈系统,都可能成为 AI 形成经验的基础。

但机器人不是简单地把大模型接到机械臂上。

如果一个机器人只是接收大模型指令,然后执行固定动作,它仍然只是一个高级执行器。真正的具身智能需要机器人能够从失败中学习:为什么这次抓取失败?为什么这个物体滑落?为什么同样的动作在不同材质上效果不同?为什么地面湿滑时移动方式要改变?

这些问题需要行动反馈,而不是单纯靠语言回答。

世界模型也非常重要。

所谓世界模型,就是让 AI 学会预测“如果我采取某个动作,环境会发生什么变化”。例如,一个自动驾驶系统需要预测前方车辆、行人、红绿灯和道路环境的变化;一个机器人需要预测自己推动物体后,物体会移动到哪里;一个智能体需要预测执行某个工具调用后,会产生什么结果。

但是,世界模型不能只是生成看起来合理的视频或图像。真正有价值的世界模型,应该服务于行动。

也就是说,它要回答的不是“未来画面看起来像什么”,而是:

如果我这样做,世界会怎样回应我?

这才是行动智能真正需要的预测能力。

大模型、强化学习、机器人和世界模型如果能够结合起来,就可能形成更接近 Enactive AI 的系统:

大模型负责知识、语言、推理和规划;

强化学习负责试错、反馈和策略优化;

机器人负责身体、感知和物理交互;

世界模型负责预测行动后果;

长期记忆负责积累经验和持续改进。

这种系统不再只是一个“会回答问题的模型”,而更像一个能够持续学习和行动的智能体。


四、现实意义:为什么 Agent 时代更需要 Enactive AI

现在很多人都在讨论 AI Agent。

所谓 Agent,通常指能够自主完成任务的 AI 系统。它不仅能回答问题,还能调用工具、搜索资料、写代码、操作网页、执行流程,甚至完成较复杂的多步骤任务。

例如,我们可以让一个 Agent 帮忙分析项目代码、整理论文资料、生成报告、执行自动化脚本,或者完成一个从搜索到总结再到输出文档的完整工作流。

这比普通聊天机器人更进一步。

但如果从 Enactive AI 的角度看,今天很多 Agent 仍然比较初级。

它们大多还是“工具调用型 Agent”。用户给一个目标,Agent 把目标拆成步骤,然后调用搜索引擎、代码解释器、文件读取器、浏览器等工具完成任务。

这当然有用,但它还不一定具备真正的自主经验。

因为它很多时候不会长期记住自己做过什么,不会稳定积累失败经验,也不会在真实环境中形成越来越成熟的行动策略。

比如,一个写代码 Agent 可能这次帮你修复了 bug,下次遇到类似项目时,它未必真正记得之前踩过的坑。一个浏览器 Agent 可能这次完成了网页操作,但它很难像人一样总结出“这个网站经常在哪里出错”“这种页面结构应该怎样处理”“这个系统的按钮逻辑有什么规律”。

未来的 Agent 如果要变强,就不能只是“调用工具”,而要能够形成经验闭环。

这包括几个能力:

第一,它要能观察行动结果。

不是执行完就结束,而是判断执行结果是否真的达到目标。

第二,它要能反思失败原因。

比如代码运行失败,是依赖版本问题、路径问题、权限问题,还是逻辑问题?

第三,它要能把经验保存下来。

下一次遇到类似任务时,不是重新开始,而是基于历史经验更快完成。

第四,它要能根据环境变化调整策略。

同样的任务,在不同系统、不同数据、不同约束下,执行方法可能完全不同。

这就是 Enactive AI 对 Agent 的启发:Agent 的核心不是会不会调用工具,而是能不能在行动中积累经验。

从这个角度看,未来的 Agent 可能会从“任务执行器”升级为“经验型智能体”。

它不只是完成一次任务,而是在大量任务中不断成长。

这也解释了为什么长期记忆、环境反馈、工具使用、自动评估、多轮修正会成为 Agent 发展的关键方向。

没有长期记忆,Agent 很难积累经验;

没有环境反馈,Agent 很难知道自己是否做对;

没有行动能力,Agent 只能停留在语言层面;

没有自主评估,Agent 很容易看似完成任务,实际上结果不可用。

所以,Enactive AI 并不是一个纯哲学概念,它和当前 AI Agent 的工程实践有很强的关系。


五、未来方向:AI 可能从“数据智能”走向“行动智能”

如果回顾人工智能的发展,可以看到一条很清晰的路线。

早期 AI 更强调规则。人类把知识写成规则,机器按照规则推理。

后来机器学习兴起,AI 不再完全依赖人工规则,而是从数据中学习模式。

深度学习进一步扩大了这种能力,让模型可以从海量数据中学习复杂特征。

大模型时代,AI 开始具备强大的语言理解、内容生成和多模态能力。

但到这里还不够。

因为这些系统大多仍然建立在已有数据之上。它们学习的是过去世界留下的记录,而不是自己与世界互动形成的经验。

下一阶段的 AI,很可能会从“数据智能”走向“行动智能”。

所谓数据智能,是指 AI 主要通过已有数据学习规律。

所谓行动智能,是指 AI 能够在环境中主动探索,通过行动获得反馈,并在反馈中形成新的能力。

这两者不是对立关系。

数据智能仍然非常重要。没有大规模数据训练,AI 很难具备基础知识、语言能力和泛化能力。

但行动智能可以弥补数据智能的不足。

因为真实世界中很多问题并没有完整数据集,也没有标准答案。智能体必须自己探索、自己试错、自己调整。

比如,一个家庭机器人无法提前看完所有家庭环境的数据。每个家庭布局不同,物品不同,用户习惯不同。它必须进入具体环境,通过实际行动学习这个家庭的特点。

一个医疗辅助系统不能只背诵医学知识,还需要结合真实流程、患者反馈、医生决策和医院资源约束进行持续优化。

一个自动驾驶系统不能只学习历史路况数据,还要在复杂交通环境中实时感知、预测、决策和修正。

一个科研 Agent 不能只总结论文,还需要提出假设、设计实验、观察结果、修正方向。

这些都需要行动闭环。

当然,Enactive AI 也面临很多挑战。

首先是安全问题。一个能够主动探索的 AI,必须受到严格约束,否则可能产生不可控行为。

其次是反馈问题。真实世界的反馈往往延迟、复杂、不稳定,很难像游戏环境那样简单设计奖励。

第三是成本问题。让机器人在真实世界中试错,比在数据中心训练语言模型更昂贵,也更容易出事故。

第四是评估问题。我们如何判断一个 AI 是否真的形成了经验?如何衡量它的自主性、适应性和长期成长能力?

这些问题都还没有完全解决。

但方向已经越来越清晰:未来 AI 的竞争,可能不仅是模型大小和数据规模的竞争,也是行动能力、经验积累能力和环境适应能力的竞争。


总结:AI 的下一步,不只是更会说,而是更会做

Enactive AI 给我们提供了一个重新理解人工智能的视角。

过去我们常常把智能看成大脑或模型内部的计算能力,认为只要模型足够大、数据足够多、算法足够强,就能逼近真正智能。

但 Enactive AI 提醒我们:智能不是孤立存在的,它总是发生在主体与环境的互动之中。

人类不是通过静态数据理解世界的,而是在看、听、摸、走、试错、反馈、修正中理解世界的。

因此,下一代 AI 也许不能只停留在“生成内容”的阶段。

它需要能够行动,需要能够观察行动后果,需要能够从失败中学习,需要能够在长期任务中积累经验。

大语言模型让 AI 学会了表达和推理;

多模态模型让 AI 能够处理更丰富的信息;

强化学习让 AI 具备试错和优化能力;

机器人让 AI 有机会进入物理世界;

世界模型让 AI 能预测行动后果;

Agent 系统让 AI 开始执行复杂任务。

这些方向结合起来,才可能推动 AI 从“会回答问题的模型”,走向“能在世界中行动的智能体”。

所以,Enactive AI 的核心价值不在于提出一个新名词,而在于指出了一个非常关键的趋势:

真正的智能,不只是从数据中训练出来的,也是从行动中生成出来的。

未来的 AI,可能不只是更会说话,而是更会探索、更会试错、更会适应,也更能在真实世界中完成长期复杂任务。

这也许就是人工智能从生成式 AI 迈向行动式 AI 的重要一步。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询