详细解读Anthropic报告《当AI构建自己时...》
2026/6/9 17:50:59 网站建设 项目流程

AI开始造AI了?Anthropic甩出一份报告,信息量有点大


文章目录

  • AI开始造AI了?Anthropic甩出一份报告,信息量有点大
  • 前言
  • 一、什么叫"AI自己造自己"?
  • 二、一张图看懂:AI 是怎么一步步接管开发流程的
  • 三、硬核数据来了:Claude 到底干了多少活?
      • 3.1 代码:80% 以上是 Claude 写的
      • 3.2 效率:工程师产出翻了 8 倍
      • 3.3 代码质量:从"还行"到"差不多"再到"要超过人类了"
  • 四、不只是写代码,Claude 还会做研究了
      • 4.1 实验优化:从"挺有用"到"超人类"
      • 4.2 自主研究:800 小时跑完人类一周的活
      • 4.3 任务时长:每四个月翻一倍
  • 五、基准测试也在疯狂涨
  • 六、Anthropic 的态度:一边加速一边喊刹车
  • 七、这对我们意味着什么?
  • 八、常见误区:别被"递归自我改进"吓到
  • 参考链接
  • 总结

前言

说实话,我第一次看到 Anthropic 这份报告的时候,脑子里就一个想法:这事儿比我想象的来得快。

2026年6月4日,Anthropic 旗下的研究机构 Anthropic Institute 发了一篇博客,标题看着挺低调——《When AI Builds Itself》(当AI开始建造自己)。但内容一点都不低调。他们直接摊牌了:Claude 已经在帮我们写代码、跑实验、做研究,而且速度越来越快。按这个趋势走下去,AI 完全自主设计下一代 AI 的日子,可能比大多数机构准备的要早。

这篇文章就是帮你把这份报告啃透。不讲虚的,全是数据和事实。


一、什么叫"AI自己造自己"?

先把这个概念说清楚。

Anthropic 管它叫递归式自我改进(Recursive Self-Improvement,简称 RSI)。用人话说就是:一个 AI 系统能自己设计、开发出比自己更强的下一代 AI,然后下一代再搞出更强的下下一代,跟滚雪球似的越滚越大。

这不是科幻。Anthropic 自己都说了:“我们还没到那一步,递归式自我改进也不是必然发生的。但它可能比大多数机构准备的要来得更快。”

那他们凭什么这么说?往下看。


二、一张图看懂:AI 是怎么一步步接管开发流程的

Anthropic 把 AI 参与自身开发的过程分成了五个阶段,我整理了一下:

阶段时间状态人类角色
🧑‍💻 纯人力2021-2023Claude 还没出生人写所有代码和文档
💬 聊天辅助2023-2025早期聊天机器人人让 AI 生成代码片段,复制粘贴用
🤖 编程代理2025-2026Claude Code 上线AI 能自己写完整文件,人负责审查
🚀 自主代理现在(2026)当前阶段AI 能自己跑代码、调度其他代理干活数小时
🔄 闭环自建20XX?未来可能AI 自己设计、训练下一代模型

你现在看到的,是第四阶段。第五阶段还没到,但迹象已经有了。


三、硬核数据来了:Claude 到底干了多少活?

Anthropic 这次没藏着掖着,直接甩了一堆内部数据。我挑几个最关键的:

3.1 代码:80% 以上是 Claude 写的

到 2026 年 5 月,Anthropic 合并到代码库里的代码,超过 80% 是 Claude 写的。在 Claude Code 2025 年 2 月上线之前,这个数字还是个位数。

3.2 效率:工程师产出翻了 8 倍

这个数据更直观:

时间段每个工程师每天合并代码量变化
2021-2024基本持平基准线
2025开始爬升Claude 开始自己跑代码
2026 Q28 倍于 2024 年Claude 能长时间自主工作

Anthropic 自己也承认,代码行数不是完美的衡量标准,8 倍肯定夸大了真实效率提升。但 2026 年 3 月对 130 名研究人员的内部调查显示,大家普遍觉得自己产出翻了 4 倍左右。

有个细节特别说明问题:Anthropic 有位工程师已经5 个月没亲手写过一行代码了。不是偷懒,是 Claude 全包了。

3.3 代码质量:从"还行"到"差不多"再到"要超过人类了"

时间Claude 代码质量 vs 人类趋势
2025 年底比人类写的差一些
2026 年 5 月基本持平📈
预计一年内严格优于人类📈📈

而且 Anthropic 现在用 Claude 自动审查代码。他们回溯分析发现,如果之前每次代码改动都让 Claude 审一遍,能提前拦截大约三分之一的生产事故。这些事故的代码,可是 Anthropic 那帮世界顶级工程师写的。


四、不只是写代码,Claude 还会做研究了

4.1 实验优化:从"挺有用"到"超人类"

Anthropic 每次发新模型都会做同一个测试:给 Claude 一段训练小模型的代码,让它想办法跑得更快。

时间模型提速倍数
2025 年 5 月Claude Opus 4~3x
2026 年 4 月Claude Mythos Preview~52x

作为参照,一个熟练的人类研究员要花 4-8 小时才能做到 4 倍提速。Claude 在不到一年时间里,从"挺有用"直接干到了"超人类"。

4.2 自主研究:800 小时跑完人类一周的活

2026 年 4 月,Anthropic 公开了一个实验:让 Claude 代理独立研究一个 AI 安全问题——弱模型能不能可靠监督强模型?

结果是这样的:

对比项表现
两个人类研究员一周恢复了约 23% 的性能差距
Claude 代理 800 小时恢复了 97% 的性能差距
花费约 18,000 美元计算资源

注意,Claude 代理是自己提出假设、设计实验、分析结果、互相交流的。人类只做了两件事:选题和设定评分标准。

4.3 任务时长:每四个月翻一倍

这个趋势特别值得关注。衡量 AI 能独立完成多长任务的数据显示:

时间模型能独立完成的任务时长
2024 年 3 月Claude Opus 3约 4 分钟
2025 年 3 月Claude Sonnet 3.7约 1.5 小时
2026 年 3 月Claude Opus 4.6约 12 小时

按这个节奏,2026 年内 AI 就能独立完成需要人类好几天的工作,2027 年可能达到数周级别。


五、基准测试也在疯狂涨

几个关键基准测试的成绩变化,我整理了一下:

基准测试测什么2024 年2026 年变化
SWE-bench真实软件工程任务个位数%接近饱和(~100%)🚀
CORE-Bench复现学术论文结果~20%接近饱和🚀
METR 长任务16 小时级任务无法完成Claude Mythos Preview 可完成🚀

SWE-bench 从个位数到接近满分只用了两年。CORE-Bench 从 20% 到饱和只用了 15 个月。这速度,说实话,比大多数人预期的快。


六、Anthropic 的态度:一边加速一边喊刹车

最有意思的是 Anthropic 的立场。他们一边展示 AI 能力飞速增长,一边呼吁建立"全球协调机制"来减速甚至暂停。

他们拿中程核导弹军控协议做类比,说前沿 AI 实验室应该能验证彼此确实减速了。

但这事儿争议不小:

  • Bentley 大学教授 Noah Giansiracusa直接说:“这不是真心想减速。Dario Amodei(Anthropic CEO)的博客我看过,他想全速前进。”
  • 佐治亚理工教授 Mark Riedl在 Bluesky 上发帖说:“大 AI 公司都在跳’递归自我改进’的炒作列车。”
  • 还有人指出,Anthropic 刚秘密提交了 IPO 申请,估值接近 1 万亿美元。这时候喊刹车,怎么看都像商业策略。

不管动机如何,Anthropic 说的一个事实没人能否认:AI 正在加速 AI 的开发


七、这对我们意味着什么?

说了这么多数据,回到一个最实际的问题:这事儿跟普通开发者、普通公司有什么关系?

短期(现在-2026 年底):

  • AI 编程代理已经是标配了,不用的人效率会明显落后
  • 代码审查、Bug 修复这类重复性工作会大量自动化
  • 工程师的角色从"写代码"变成"指挥 AI 写代码 + 审查结果"

中期(2027-2028):

  • AI 可能能独立完成需要数周的任务
  • 研究实验的自动化程度大幅提高
  • 人类更多做"定方向"的工作,执行层面交给 AI

长期(不确定):

  • 如果递归自我改进真的实现,AI 进步速度可能脱离人类控制
  • 这既是巨大的机遇(科研、医疗突破),也是巨大的风险(失控)
  • Anthropic 呼吁的"全球协调机制"能不能建立,是关键变量

八、常见误区:别被"递归自我改进"吓到

最后说几个容易理解偏的地方:

❌ 误区一:Claude 已经在自己改自己的代码了
✅ 真相:Claude 是在帮人类写 Anthropic 的代码,不是改自己的模型权重。这叫"外循环加速",不是"内循环自改"。

❌ 误区二:递归自我改进一定会发生
✅ 真相:Anthropic 明确说了"不是必然的"。技术瓶颈、算力限制、监管干预都可能打断这个趋势。

❌ 误区三:这意味着 AI 马上要有意识了
✅ 真相:递归自我改进说的是能力提升,跟意识、自我认知完全是两码事。别混为一谈。


参考链接

  • Anthropic Institute: When AI Builds Itself(原文)
  • Scientific American: Anthropic warns AI may soon begin recursive self-improvement
  • Kingy AI: Inside the Recursive Self-Improvement Race
  • Axios: Anthropic warns AI could soon help build its own successors
  • Anthropic: Automated Weak-to-Strong Researcher

总结

Anthropic 这份报告,本质上是在说一件事:AI 参与自身开发的程度,已经深到足以让"递归自我改进"从一个理论问题变成一个现实问题了。

80% 的代码是 AI 写的,工程师效率翻了数倍,实验优化速度超过人类,自主研究代理能跑 800 小时——这些不是预测,是正在发生的事实。

但话说回来,从"AI 帮人类写代码"到"AI 完全自主设计下一代 AI",中间还有很长的路。Anthropic 自己都承认还没到那一步。

真正值得关注的不是恐慌,而是准备。如果这个趋势继续下去,我们每个人——不管你是开发者、管理者还是普通用户——都需要重新思考:当 AI 能造 AI 的时候,人的位置在哪里?


💬 你怎么看?你觉得 AI 递归自我改进是机遇还是威胁?欢迎在评论区聊聊你的看法。如果觉得这篇文章有用,点个赞收藏一下,咱们下篇见!

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询