详细解读Anthropic报告《当AI构建自己时...》-迪斯科星球

AI开始造AI了？Anthropic甩出一份报告，信息量有点大

文章目录

AI开始造AI了？Anthropic甩出一份报告，信息量有点大
前言
一、什么叫"AI自己造自己"？
二、一张图看懂：AI 是怎么一步步接管开发流程的
三、硬核数据来了：Claude 到底干了多少活？
- - 3.1 代码：80% 以上是 Claude 写的
  - 3.2 效率：工程师产出翻了 8 倍
  - 3.3 代码质量：从"还行"到"差不多"再到"要超过人类了"
四、不只是写代码，Claude 还会做研究了
- - 4.1 实验优化：从"挺有用"到"超人类"
  - 4.2 自主研究：800 小时跑完人类一周的活
  - 4.3 任务时长：每四个月翻一倍
五、基准测试也在疯狂涨
六、Anthropic 的态度：一边加速一边喊刹车
七、这对我们意味着什么？
八、常见误区：别被"递归自我改进"吓到
参考链接
总结

前言

说实话，我第一次看到 Anthropic 这份报告的时候，脑子里就一个想法：这事儿比我想象的来得快。

2026年6月4日，Anthropic 旗下的研究机构 Anthropic Institute 发了一篇博客，标题看着挺低调——《When AI Builds Itself》（当AI开始建造自己）。但内容一点都不低调。他们直接摊牌了：Claude 已经在帮我们写代码、跑实验、做研究，而且速度越来越快。按这个趋势走下去，AI 完全自主设计下一代 AI 的日子，可能比大多数机构准备的要早。

这篇文章就是帮你把这份报告啃透。不讲虚的，全是数据和事实。

一、什么叫"AI自己造自己"？

先把这个概念说清楚。

Anthropic 管它叫递归式自我改进（Recursive Self-Improvement，简称 RSI）。用人话说就是：一个 AI 系统能自己设计、开发出比自己更强的下一代 AI，然后下一代再搞出更强的下下一代，跟滚雪球似的越滚越大。

这不是科幻。Anthropic 自己都说了：“我们还没到那一步，递归式自我改进也不是必然发生的。但它可能比大多数机构准备的要来得更快。”

那他们凭什么这么说？往下看。

二、一张图看懂：AI 是怎么一步步接管开发流程的

Anthropic 把 AI 参与自身开发的过程分成了五个阶段，我整理了一下：

阶段	时间	状态	人类角色
🧑‍💻 纯人力	2021-2023	Claude 还没出生	人写所有代码和文档
💬 聊天辅助	2023-2025	早期聊天机器人	人让 AI 生成代码片段，复制粘贴用
🤖 编程代理	2025-2026	Claude Code 上线	AI 能自己写完整文件，人负责审查
🚀 自主代理	现在（2026）	当前阶段	AI 能自己跑代码、调度其他代理干活数小时
🔄 闭环自建	20XX？	未来可能	AI 自己设计、训练下一代模型

你现在看到的，是第四阶段。第五阶段还没到，但迹象已经有了。

三、硬核数据来了：Claude 到底干了多少活？

Anthropic 这次没藏着掖着，直接甩了一堆内部数据。我挑几个最关键的：

3.1 代码：80% 以上是 Claude 写的

到 2026 年 5 月，Anthropic 合并到代码库里的代码，超过 80% 是 Claude 写的。在 Claude Code 2025 年 2 月上线之前，这个数字还是个位数。

3.2 效率：工程师产出翻了 8 倍

这个数据更直观：

时间段	每个工程师每天合并代码量	变化
2021-2024	基本持平	基准线
2025	开始爬升	Claude 开始自己跑代码
2026 Q2	8 倍于 2024 年	Claude 能长时间自主工作

Anthropic 自己也承认，代码行数不是完美的衡量标准，8 倍肯定夸大了真实效率提升。但 2026 年 3 月对 130 名研究人员的内部调查显示，大家普遍觉得自己产出翻了 4 倍左右。

有个细节特别说明问题：Anthropic 有位工程师已经5 个月没亲手写过一行代码了。不是偷懒，是 Claude 全包了。

3.3 代码质量：从"还行"到"差不多"再到"要超过人类了"

时间	Claude 代码质量 vs 人类	趋势
2025 年底	比人类写的差一些	—
2026 年 5 月	基本持平	📈
预计一年内	严格优于人类	📈📈

而且 Anthropic 现在用 Claude 自动审查代码。他们回溯分析发现，如果之前每次代码改动都让 Claude 审一遍，能提前拦截大约三分之一的生产事故。这些事故的代码，可是 Anthropic 那帮世界顶级工程师写的。

四、不只是写代码，Claude 还会做研究了

4.1 实验优化：从"挺有用"到"超人类"

Anthropic 每次发新模型都会做同一个测试：给 Claude 一段训练小模型的代码，让它想办法跑得更快。

时间	模型	提速倍数
2025 年 5 月	Claude Opus 4	~3x
2026 年 4 月	Claude Mythos Preview	~52x

作为参照，一个熟练的人类研究员要花 4-8 小时才能做到 4 倍提速。Claude 在不到一年时间里，从"挺有用"直接干到了"超人类"。

4.2 自主研究：800 小时跑完人类一周的活

2026 年 4 月，Anthropic 公开了一个实验：让 Claude 代理独立研究一个 AI 安全问题——弱模型能不能可靠监督强模型？

结果是这样的：

对比项	表现
两个人类研究员一周	恢复了约 23% 的性能差距
Claude 代理 800 小时	恢复了 97% 的性能差距
花费	约 18,000 美元计算资源

注意，Claude 代理是自己提出假设、设计实验、分析结果、互相交流的。人类只做了两件事：选题和设定评分标准。

4.3 任务时长：每四个月翻一倍

这个趋势特别值得关注。衡量 AI 能独立完成多长任务的数据显示：

时间	模型	能独立完成的任务时长
2024 年 3 月	Claude Opus 3	约 4 分钟
2025 年 3 月	Claude Sonnet 3.7	约 1.5 小时
2026 年 3 月	Claude Opus 4.6	约 12 小时

按这个节奏，2026 年内 AI 就能独立完成需要人类好几天的工作，2027 年可能达到数周级别。

五、基准测试也在疯狂涨

几个关键基准测试的成绩变化，我整理了一下：

基准测试	测什么	2024 年	2026 年	变化
SWE-bench	真实软件工程任务	个位数%	接近饱和（~100%）	🚀
CORE-Bench	复现学术论文结果	~20%	接近饱和	🚀
METR 长任务	16 小时级任务	无法完成	Claude Mythos Preview 可完成	🚀

SWE-bench 从个位数到接近满分只用了两年。CORE-Bench 从 20% 到饱和只用了 15 个月。这速度，说实话，比大多数人预期的快。

六、Anthropic 的态度：一边加速一边喊刹车

最有意思的是 Anthropic 的立场。他们一边展示 AI 能力飞速增长，一边呼吁建立"全球协调机制"来减速甚至暂停。

他们拿中程核导弹军控协议做类比，说前沿 AI 实验室应该能验证彼此确实减速了。

但这事儿争议不小：

Bentley 大学教授 Noah Giansiracusa直接说：“这不是真心想减速。Dario Amodei（Anthropic CEO）的博客我看过，他想全速前进。”
佐治亚理工教授 Mark Riedl在 Bluesky 上发帖说：“大 AI 公司都在跳’递归自我改进’的炒作列车。”
还有人指出，Anthropic 刚秘密提交了 IPO 申请，估值接近 1 万亿美元。这时候喊刹车，怎么看都像商业策略。

不管动机如何，Anthropic 说的一个事实没人能否认：AI 正在加速 AI 的开发。

七、这对我们意味着什么？

说了这么多数据，回到一个最实际的问题：这事儿跟普通开发者、普通公司有什么关系？

短期（现在-2026 年底）：

AI 编程代理已经是标配了，不用的人效率会明显落后
代码审查、Bug 修复这类重复性工作会大量自动化
工程师的角色从"写代码"变成"指挥 AI 写代码 + 审查结果"

中期（2027-2028）：

AI 可能能独立完成需要数周的任务
研究实验的自动化程度大幅提高
人类更多做"定方向"的工作，执行层面交给 AI

长期（不确定）：

如果递归自我改进真的实现，AI 进步速度可能脱离人类控制
这既是巨大的机遇（科研、医疗突破），也是巨大的风险（失控）
Anthropic 呼吁的"全球协调机制"能不能建立，是关键变量

八、常见误区：别被"递归自我改进"吓到

最后说几个容易理解偏的地方：

❌ 误区一：Claude 已经在自己改自己的代码了
✅ 真相：Claude 是在帮人类写 Anthropic 的代码，不是改自己的模型权重。这叫"外循环加速"，不是"内循环自改"。

❌ 误区二：递归自我改进一定会发生
✅ 真相：Anthropic 明确说了"不是必然的"。技术瓶颈、算力限制、监管干预都可能打断这个趋势。

❌ 误区三：这意味着 AI 马上要有意识了
✅ 真相：递归自我改进说的是能力提升，跟意识、自我认知完全是两码事。别混为一谈。

参考链接

Anthropic Institute: When AI Builds Itself（原文）
Scientific American: Anthropic warns AI may soon begin recursive self-improvement
Kingy AI: Inside the Recursive Self-Improvement Race
Axios: Anthropic warns AI could soon help build its own successors
Anthropic: Automated Weak-to-Strong Researcher

总结

Anthropic 这份报告，本质上是在说一件事：AI 参与自身开发的程度，已经深到足以让"递归自我改进"从一个理论问题变成一个现实问题了。

80% 的代码是 AI 写的，工程师效率翻了数倍，实验优化速度超过人类，自主研究代理能跑 800 小时——这些不是预测，是正在发生的事实。

但话说回来，从"AI 帮人类写代码"到"AI 完全自主设计下一代 AI"，中间还有很长的路。Anthropic 自己都承认还没到那一步。

真正值得关注的不是恐慌，而是准备。如果这个趋势继续下去，我们每个人——不管你是开发者、管理者还是普通用户——都需要重新思考：当 AI 能造 AI 的时候，人的位置在哪里？

💬 你怎么看？你觉得 AI 递归自我改进是机遇还是威胁？欢迎在评论区聊聊你的看法。如果觉得这篇文章有用，点个赞收藏一下，咱们下篇见！

企业官网建设流程全解析

AI开始造AI了？Anthropic甩出一份报告，信息量有点大

文章目录

前言

一、什么叫"AI自己造自己"？

二、一张图看懂：AI 是怎么一步步接管开发流程的

三、硬核数据来了：Claude 到底干了多少活？

3.1 代码：80% 以上是 Claude 写的

3.2 效率：工程师产出翻了 8 倍

3.3 代码质量：从"还行"到"差不多"再到"要超过人类了"

四、不只是写代码，Claude 还会做研究了

4.1 实验优化：从"挺有用"到"超人类"

4.2 自主研究：800 小时跑完人类一周的活

4.3 任务时长：每四个月翻一倍

五、基准测试也在疯狂涨

六、Anthropic 的态度：一边加速一边喊刹车

七、这对我们意味着什么？

八、常见误区：别被"递归自我改进"吓到

参考链接

总结

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

AI开始造AI了？Anthropic甩出一份报告，信息量有点大

文章目录

前言

一、什么叫"AI自己造自己"？

二、一张图看懂：AI 是怎么一步步接管开发流程的

三、硬核数据来了：Claude 到底干了多少活？

3.1 代码：80% 以上是 Claude 写的

3.2 效率：工程师产出翻了 8 倍

3.3 代码质量：从"还行"到"差不多"再到"要超过人类了"

四、不只是写代码，Claude 还会做研究了

4.1 实验优化：从"挺有用"到"超人类"

4.2 自主研究：800 小时跑完人类一周的活

4.3 任务时长：每四个月翻一倍

五、基准测试也在疯狂涨

六、Anthropic 的态度：一边加速一边喊刹车

七、这对我们意味着什么？

八、常见误区：别被"递归自我改进"吓到

参考链接

总结

热门文章

文章分类

标签云

相关文章

别再只盯着JVM了：用JMX Exporter + Prometheus监控你的Tomcat连接池和业务MBean

嵌入式MCU时钟与ADC设计：从数据手册参数到稳定系统实战

Kinetis K82引脚配置实战：从复用原理到未使用引脚处理全解析

需要专业的网站建设服务？