从生成式 AI 到行动式 AI：下一代人工智能为什么需要“行动能力”-迪斯科星球

从生成式 AI 到行动式 AI：下一代人工智能为什么需要“行动能力”

- 一、核心问题：为什么“会生成内容”不等于“真正理解世界”
- 二、关键思想：智能不是被动计算，而是在行动中生成的
- 三、技术启发：大模型、强化学习、机器人和世界模型需要重新连接
- 四、现实意义：为什么 Agent 时代更需要 Enactive AI
- 五、未来方向：AI 可能从“数据智能”走向“行动智能”
- 总结：AI 的下一步，不只是更会说，而是更会做

过去几年，人工智能的发展速度非常快。

从 ChatGPT 到多模态大模型，从 AI 绘画到视频生成，从代码助手到智能体 Agent，AI 好像正在从“工具”一步步走向“助手”，甚至走向某种更接近“智能体”的形态。

但是，一个很关键的问题也随之出现：

今天的大模型真的理解世界了吗？

它可以解释物理定律，可以描述人类情绪，可以写程序、做规划、回答医学和法律问题。可是，它的这些能力大多来自对海量文本、图像、视频数据的学习。它看过很多关于世界的描述，但并没有真正进入世界；它学习了人类经验留下的痕迹，却并没有形成属于自己的经验。

这正是 Enactive AI 想要讨论的问题。

Enactive AI 可以理解为“行动生成式人工智能”或“具身生成智能”。它强调，智能不是单纯从数据中提取出来的，也不是大脑或模型内部凭空构建出来的，而是在主体与环境的持续互动中生成的。

换句话说，未来 AI 的关键，可能不只是模型参数有多大、训练数据有多少，而是它能不能行动、能不能探索、能不能通过反馈修正自己，并在长期交互中形成经验。

一、核心问题：为什么“会生成内容”不等于“真正理解世界”

现在的大模型非常擅长生成内容。

我们输入一个问题，它可以给出一段结构完整、语气自然的回答；输入一段代码需求，它可以生成函数；输入一张图片，它可以描述图中发生了什么；输入一个视频片段，它甚至可以做摘要和推理。

这些能力当然很强，但它们背后的基本模式仍然是：

输入数据 → 模型处理 → 输出结果。

这个过程看起来像理解，但本质上更多是基于统计规律、语义关联和训练数据中的模式进行预测。

比如，一个语言模型可以解释“火很烫，不能直接用手碰”，但它并没有自己的手，也没有真的被烫过。它知道“烫”这个词经常和“疼痛”“危险”“高温”一起出现，也知道人类通常会避免直接接触火焰。可是，这种知道和人类真实经历过火焰、感受到热量、产生回避动作，并不是一回事。

这就引出了一个非常重要的区别：

AI 可以学习关于世界的描述，但不一定拥有关于世界的经验。

人类理解世界并不是只靠阅读文字完成的。婴儿学习世界时，并不是先读一本《世界说明书》。他会爬、会抓、会摔倒、会触摸、会听到声音、会看到结果。很多概念都是在身体行动和环境反馈中逐渐形成的。

比如：

看到一个杯子，不只是识别出“这是杯子”，还会理解它可以拿、可以装水、可能会碎、装热水时不能直接碰杯壁。

看到一把椅子，不只是识别出“这是椅子”，还会知道它可以坐、可以移动、可能会挡路、站上去可能危险。

看到一扇门，不只是识别出“这是门”，还会知道它可以推、可以拉、可以锁住，也可能打不开。

这些意义不是物体本身静态写好的，而是在“我能对它做什么”和“它会如何回应我”的关系中形成的。

因此，Enactive AI 要强调的并不是“AI 还不够聪明”，而是说：如果 AI 永远只是被动接收数据，它就很难形成真正的、可行动的世界理解。

二、关键思想：智能不是被动计算，而是在行动中生成的

Enactive 这个词的核心在于“行动”。

传统人工智能更接近一种“表征主义”的思路：外部世界是客观存在的，智能系统需要在内部建立一个世界模型，然后根据这个内部模型进行判断、规划和行动。

这种思路在很多任务中非常有效。比如图像分类、语音识别、机器翻译、文本生成，都可以通过大量数据训练出强大的模型。

但真实世界远比数据集复杂。

真实世界不是静态的，也不是完全可预测的。它充满变化、不确定性、意外情况和开放问题。一个智能体如果要在真实环境中长期生存和完成任务，就不能只是对已有数据做模式匹配，而必须通过自己的行动不断获得反馈。

Enactive AI 的核心观点可以概括为：

智能不是对世界的复制，而是主体在环境中的持续生成。

这句话看起来有点抽象，可以用一个简单例子说明。

假设一个机器人要学会抓杯子。

传统方式可能是先给它大量杯子的图片和抓取数据，让模型学习杯子的形状、位置、边缘和最佳抓取点。训练完成后，它根据摄像头看到的图像计算动作。

但真实场景中，杯子可能是透明的，可能装了水，可能表面很滑，可能放在桌子边缘，可能旁边还有其他物体。机器人第一次抓可能失败，第二次可能用力过大，第三次可能碰倒杯子。只有经过反复试错，它才能学到“这个杯子应该如何抓”“什么情况下不能直接抓”“手指应该用多大力”。

这类经验很难完全通过静态数据给出。

因为它不是单纯的视觉知识，而是视觉、动作、力量、反馈和结果共同形成的经验。

这也是为什么“感知”和“行动”不能被简单分开。

传统 AI 系统经常把任务拆成几个模块：

先感知环境，再理解环境，然后规划路径，最后执行动作。

但在人类和动物身上，感知与行动往往是同步发生的。我们走路时，不是先完整建模整个世界再迈步，而是一边走一边看、一边调整平衡、一边根据脚下反馈改变动作。

我们拿东西时，也不是先精确计算所有物理参数，而是在接近、触碰、受力、移动的过程中不断修正。

所以，真正的智能不是“先看懂再行动”，而是：

在行动中看懂，在反馈中修正，在经验中成长。

这正是 Enactive AI 与传统 AI 的重要区别。

三、技术启发：大模型、强化学习、机器人和世界模型需要重新连接

从当前技术发展来看，Enactive AI 并不是要否定大模型，而是提醒我们：大模型可能只是下一代智能系统的一部分，而不是全部。

今天的大语言模型具备很强的知识整合能力和语言表达能力，但它们缺少真实的行动闭环。它们能说出很多关于世界的规律，但这些规律主要来自人类已经记录下来的文本和数据。

如果未来要构建更强的 AI，就需要把大模型和其他技术方向结合起来。

其中最关键的几个方向包括：强化学习、机器人、世界模型和长期记忆。

强化学习和 Enactive AI 的关系非常密切。强化学习中有智能体、环境、动作、奖励和反馈。智能体通过试错来优化策略，这比单纯监督学习更接近“经验生成”的过程。

比如 AlphaGo 并不是只学习人类棋谱，它还通过大量自我对弈形成新的策略。这种自我探索让它不只是模仿人类，而是能发现人类未必总结过的下法。

这说明，智能系统如果只依赖已有数据，能力会受限于数据本身；但如果它能够主动探索，就有可能发现新的策略和新的知识。

不过，现有强化学习仍然存在很多问题。

许多强化学习任务的环境是封闭的，奖励函数是人工设计的，目标也相对单一。比如在游戏中得分越高越好，在机器人任务中成功抓取就加分。这种设置虽然有效，但距离真实世界中的开放智能还有差距。

真实世界没有一个永远清晰的奖励函数。很多时候，智能体需要自己判断什么重要、什么危险、什么值得探索、什么应该避免。

这就涉及自主性问题。

一个真正强大的 AI 智能体，不应该只是等待人类给它目标，然后机械执行。它应该能够在长期任务中维护自己的状态，评估行动后果，并根据环境变化调整策略。

机器人则是另一个关键方向。

如果 AI 只存在于文本窗口里，它永远很难获得真实世界经验。机器人提供了身体，提供了与物理世界交互的入口。摄像头、机械臂、触觉传感器、移动底盘、力反馈系统，都可能成为 AI 形成经验的基础。

但机器人不是简单地把大模型接到机械臂上。

如果一个机器人只是接收大模型指令，然后执行固定动作，它仍然只是一个高级执行器。真正的具身智能需要机器人能够从失败中学习：为什么这次抓取失败？为什么这个物体滑落？为什么同样的动作在不同材质上效果不同？为什么地面湿滑时移动方式要改变？

这些问题需要行动反馈，而不是单纯靠语言回答。

世界模型也非常重要。

所谓世界模型，就是让 AI 学会预测“如果我采取某个动作，环境会发生什么变化”。例如，一个自动驾驶系统需要预测前方车辆、行人、红绿灯和道路环境的变化；一个机器人需要预测自己推动物体后，物体会移动到哪里；一个智能体需要预测执行某个工具调用后，会产生什么结果。

但是，世界模型不能只是生成看起来合理的视频或图像。真正有价值的世界模型，应该服务于行动。

也就是说，它要回答的不是“未来画面看起来像什么”，而是：

如果我这样做，世界会怎样回应我？

这才是行动智能真正需要的预测能力。

大模型、强化学习、机器人和世界模型如果能够结合起来，就可能形成更接近 Enactive AI 的系统：

大模型负责知识、语言、推理和规划；

强化学习负责试错、反馈和策略优化；

机器人负责身体、感知和物理交互；

世界模型负责预测行动后果；

长期记忆负责积累经验和持续改进。

这种系统不再只是一个“会回答问题的模型”，而更像一个能够持续学习和行动的智能体。

四、现实意义：为什么 Agent 时代更需要 Enactive AI

现在很多人都在讨论 AI Agent。

所谓 Agent，通常指能够自主完成任务的 AI 系统。它不仅能回答问题，还能调用工具、搜索资料、写代码、操作网页、执行流程，甚至完成较复杂的多步骤任务。

例如，我们可以让一个 Agent 帮忙分析项目代码、整理论文资料、生成报告、执行自动化脚本，或者完成一个从搜索到总结再到输出文档的完整工作流。

这比普通聊天机器人更进一步。

但如果从 Enactive AI 的角度看，今天很多 Agent 仍然比较初级。

它们大多还是“工具调用型 Agent”。用户给一个目标，Agent 把目标拆成步骤，然后调用搜索引擎、代码解释器、文件读取器、浏览器等工具完成任务。

这当然有用，但它还不一定具备真正的自主经验。

因为它很多时候不会长期记住自己做过什么，不会稳定积累失败经验，也不会在真实环境中形成越来越成熟的行动策略。

比如，一个写代码 Agent 可能这次帮你修复了 bug，下次遇到类似项目时，它未必真正记得之前踩过的坑。一个浏览器 Agent 可能这次完成了网页操作，但它很难像人一样总结出“这个网站经常在哪里出错”“这种页面结构应该怎样处理”“这个系统的按钮逻辑有什么规律”。

未来的 Agent 如果要变强，就不能只是“调用工具”，而要能够形成经验闭环。

这包括几个能力：

第一，它要能观察行动结果。

不是执行完就结束，而是判断执行结果是否真的达到目标。

第二，它要能反思失败原因。

比如代码运行失败，是依赖版本问题、路径问题、权限问题，还是逻辑问题？

第三，它要能把经验保存下来。

下一次遇到类似任务时，不是重新开始，而是基于历史经验更快完成。

第四，它要能根据环境变化调整策略。

同样的任务，在不同系统、不同数据、不同约束下，执行方法可能完全不同。

这就是 Enactive AI 对 Agent 的启发：Agent 的核心不是会不会调用工具，而是能不能在行动中积累经验。

从这个角度看，未来的 Agent 可能会从“任务执行器”升级为“经验型智能体”。

它不只是完成一次任务，而是在大量任务中不断成长。

这也解释了为什么长期记忆、环境反馈、工具使用、自动评估、多轮修正会成为 Agent 发展的关键方向。

没有长期记忆，Agent 很难积累经验；

没有环境反馈，Agent 很难知道自己是否做对；

没有行动能力，Agent 只能停留在语言层面；

没有自主评估，Agent 很容易看似完成任务，实际上结果不可用。

所以，Enactive AI 并不是一个纯哲学概念，它和当前 AI Agent 的工程实践有很强的关系。

五、未来方向：AI 可能从“数据智能”走向“行动智能”

如果回顾人工智能的发展，可以看到一条很清晰的路线。

早期 AI 更强调规则。人类把知识写成规则，机器按照规则推理。

后来机器学习兴起，AI 不再完全依赖人工规则，而是从数据中学习模式。

深度学习进一步扩大了这种能力，让模型可以从海量数据中学习复杂特征。

大模型时代，AI 开始具备强大的语言理解、内容生成和多模态能力。

但到这里还不够。

因为这些系统大多仍然建立在已有数据之上。它们学习的是过去世界留下的记录，而不是自己与世界互动形成的经验。

下一阶段的 AI，很可能会从“数据智能”走向“行动智能”。

所谓数据智能，是指 AI 主要通过已有数据学习规律。

所谓行动智能，是指 AI 能够在环境中主动探索，通过行动获得反馈，并在反馈中形成新的能力。

这两者不是对立关系。

数据智能仍然非常重要。没有大规模数据训练，AI 很难具备基础知识、语言能力和泛化能力。

但行动智能可以弥补数据智能的不足。

因为真实世界中很多问题并没有完整数据集，也没有标准答案。智能体必须自己探索、自己试错、自己调整。

比如，一个家庭机器人无法提前看完所有家庭环境的数据。每个家庭布局不同，物品不同，用户习惯不同。它必须进入具体环境，通过实际行动学习这个家庭的特点。

一个医疗辅助系统不能只背诵医学知识，还需要结合真实流程、患者反馈、医生决策和医院资源约束进行持续优化。

一个自动驾驶系统不能只学习历史路况数据，还要在复杂交通环境中实时感知、预测、决策和修正。

一个科研 Agent 不能只总结论文，还需要提出假设、设计实验、观察结果、修正方向。

这些都需要行动闭环。

当然，Enactive AI 也面临很多挑战。

首先是安全问题。一个能够主动探索的 AI，必须受到严格约束，否则可能产生不可控行为。

其次是反馈问题。真实世界的反馈往往延迟、复杂、不稳定，很难像游戏环境那样简单设计奖励。

第三是成本问题。让机器人在真实世界中试错，比在数据中心训练语言模型更昂贵，也更容易出事故。

第四是评估问题。我们如何判断一个 AI 是否真的形成了经验？如何衡量它的自主性、适应性和长期成长能力？

这些问题都还没有完全解决。

但方向已经越来越清晰：未来 AI 的竞争，可能不仅是模型大小和数据规模的竞争，也是行动能力、经验积累能力和环境适应能力的竞争。

总结：AI 的下一步，不只是更会说，而是更会做

Enactive AI 给我们提供了一个重新理解人工智能的视角。

过去我们常常把智能看成大脑或模型内部的计算能力，认为只要模型足够大、数据足够多、算法足够强，就能逼近真正智能。

但 Enactive AI 提醒我们：智能不是孤立存在的，它总是发生在主体与环境的互动之中。

人类不是通过静态数据理解世界的，而是在看、听、摸、走、试错、反馈、修正中理解世界的。

因此，下一代 AI 也许不能只停留在“生成内容”的阶段。

它需要能够行动，需要能够观察行动后果，需要能够从失败中学习，需要能够在长期任务中积累经验。

大语言模型让 AI 学会了表达和推理；

多模态模型让 AI 能够处理更丰富的信息；

强化学习让 AI 具备试错和优化能力；

机器人让 AI 有机会进入物理世界；

世界模型让 AI 能预测行动后果；

Agent 系统让 AI 开始执行复杂任务。

这些方向结合起来，才可能推动 AI 从“会回答问题的模型”，走向“能在世界中行动的智能体”。

所以，Enactive AI 的核心价值不在于提出一个新名词，而在于指出了一个非常关键的趋势：

真正的智能，不只是从数据中训练出来的，也是从行动中生成出来的。

未来的 AI，可能不只是更会说话，而是更会探索、更会试错、更会适应，也更能在真实世界中完成长期复杂任务。

这也许就是人工智能从生成式 AI 迈向行动式 AI 的重要一步。

企业官网建设流程全解析

从生成式 AI 到行动式 AI：下一代人工智能为什么需要“行动能力”

一、核心问题：为什么“会生成内容”不等于“真正理解世界”

二、关键思想：智能不是被动计算，而是在行动中生成的

三、技术启发：大模型、强化学习、机器人和世界模型需要重新连接

四、现实意义：为什么 Agent 时代更需要 Enactive AI

五、未来方向：AI 可能从“数据智能”走向“行动智能”

总结：AI 的下一步，不只是更会说，而是更会做

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

从生成式 AI 到行动式 AI：下一代人工智能为什么需要“行动能力”

一、核心问题：为什么“会生成内容”不等于“真正理解世界”

二、关键思想：智能不是被动计算，而是在行动中生成的

三、技术启发：大模型、强化学习、机器人和世界模型需要重新连接

四、现实意义：为什么 Agent 时代更需要 Enactive AI

五、未来方向：AI 可能从“数据智能”走向“行动智能”

总结：AI 的下一步，不只是更会说，而是更会做

热门文章

文章分类

标签云

相关文章

英语介词学习

5步轻松掌握B站视频下载神器：BilibiliDown完全指南

毕业设计可用：基于Vue+SpringBoot的邮件过滤系统（含黑白名单、敏感词拦截与角色权限管理）

需要专业的网站建设服务？