AI跑分排行榜信息基本错误？OpenAI的Noam Brown发文炮轰行业评估方式-迪斯科星球

【AI跑分排行榜的问题】

OpenAI的Noam Brown发了一篇题为「大规模推理计算的启示」的长文，对着整个AI行业开了一炮。其核心论点是，现在看到的所有AI跑分排行榜，提供的信息基本上是错的。因为同一个模型，投入不同的计算成本，跑出来的分数天差地别，但排行榜都不说明模型跑分的成本。

【GPT-5.5的测试差异】

4月23日，GPT-5.5发布。OpenAI给出benchmark表格，社区比对后认为其比5.4好一点，但几个小时后，波兰数学家Bartosz Naskręcki用一条prompt让GPT-5.5在11分钟内搭出一个代数几何可视化应用，Ruby on Rails之父DHH也感慨用完5.5再切回Opus 4.7像倒退了一个时代。原因是5.5和5.4不是在同一计算预算下测试的，就像两个学生考试时间不同，拿成绩比较没有意义。GPT-5.4 Pro的API定价是$30/$180（每百万token），GPT-5.5是$5/$30，价格差6倍，但benchmark表格忽略推理预算差异。控制token预算后，GPT-5.5在网络安全评估上大幅拉开GPT-5.4。

【不同评测基准的问题】

MMLU评测基准中，前沿模型分数差异在统计上无意义，看到的可能只是噪声。MRCR v2测试中，GPT-5.4得36.6%，GPT-5.5得74.0%，但该维度在标准benchmark表格里不存在。ARC-AGI上，OpenAI的o3推理成本高，NVARC团队小模型成本低，比较排名已无意义。

【正确的评测方式】

当模型能力是推理计算量的函数时，没有x轴的benchmark分数没有意义。Brown认为正确做法是画性能与推理计算量的曲线，x轴可以是token数、美元或耗时；也可以设明确预算上限。但目前AI评测还忽略推理预算这个变量。

【问题爆发原因】

两年前，推理时计算只是o1的专属概念，而Brown是o1的核心贡献者。此前他有诸多成果，一直在让AI学会想更久、想更深。2024年o1让「推理时间换准确率」受关注，到2026年推理时计算成前沿模型标配。学术界给出覆盖率与采样次数呈对数线性关系，且越强的模型在更长时间跨度上收益越大。

【Brown的建议】

第一，实验室发布新模型时公布性能 - 推理计算量曲线，至少标明分数对应的推理预算，否则就像两家公司比营收却不标注时间跨度。第二，benchmark排行榜追踪推理用量或设定明确预算上限，ARC-AGI已在做但不是行业标准。第三，安全准备框架和负责任扩展政策显式纳入推理计算量，安全评估不能只测「默认状态」。Brown理想中的安全评估是一张图，但长期评估可能无法靠外推解决，AI实验室还将面临agent运行周期超过新模型开发周期的问题。

【超级智能的思考】

如果模型能力是推理计算量的函数，且越强的模型高原期越远，那「超级智能」可能不是一个时刻，而是一条曲线。不同推理预算会有不同结果，没人测过给前沿模型高额推理预算的情况，但对数线性关系表明曲线未到顶。超级智能可能只需足够的钱和时间。

【AI评估的变革】

过去AI行业习惯一个模型一个分数排名的评估方式，如今跑分进入「二维时代」，模型能力从点变成曲线，评估从分数变成图，每个「第一」要乘以推理预算变量。全球科技巨头在AI基础设施投入巨大，同一个开源模型因资源不同能力差距大。当「智能」可用美元标价，「超级智能」不再是是非题，谁先适应二维坐标系，谁就先看清ASI决赛的真实比分。

企业官网建设流程全解析

【AI跑分排行榜的问题】

【GPT-5.5的测试差异】

【不同评测基准的问题】

【正确的评测方式】

【问题爆发原因】

【Brown的建议】

【超级智能的思考】

【AI评估的变革】

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

【AI跑分排行榜的问题】

【GPT-5.5的测试差异】

【不同评测基准的问题】

【正确的评测方式】

【问题爆发原因】

【Brown的建议】

【超级智能的思考】

【AI评估的变革】

热门文章

文章分类

标签云

相关文章

周星驰押注AI互动内容，大厂探索新赛道，能否诞生全新媒介形态？

性价比高的AI外贸自动拓客哪个靠谱

终极指南：如何在15分钟内为Switch安装大气层Atmosphere稳定版

需要专业的网站建设服务？