【AI跑分排行榜的问题】
OpenAI的Noam Brown发了一篇题为「大规模推理计算的启示」的长文,对着整个AI行业开了一炮。其核心论点是,现在看到的所有AI跑分排行榜,提供的信息基本上是错的。因为同一个模型,投入不同的计算成本,跑出来的分数天差地别,但排行榜都不说明模型跑分的成本。
【GPT-5.5的测试差异】
4月23日,GPT-5.5发布。OpenAI给出benchmark表格,社区比对后认为其比5.4好一点,但几个小时后,波兰数学家Bartosz Naskręcki用一条prompt让GPT-5.5在11分钟内搭出一个代数几何可视化应用,Ruby on Rails之父DHH也感慨用完5.5再切回Opus 4.7像倒退了一个时代。原因是5.5和5.4不是在同一计算预算下测试的,就像两个学生考试时间不同,拿成绩比较没有意义。GPT-5.4 Pro的API定价是$30/$180(每百万token),GPT-5.5是$5/$30,价格差6倍,但benchmark表格忽略推理预算差异。控制token预算后,GPT-5.5在网络安全评估上大幅拉开GPT-5.4。
【不同评测基准的问题】
MMLU评测基准中,前沿模型分数差异在统计上无意义,看到的可能只是噪声。MRCR v2测试中,GPT-5.4得36.6%,GPT-5.5得74.0%,但该维度在标准benchmark表格里不存在。ARC-AGI上,OpenAI的o3推理成本高,NVARC团队小模型成本低,比较排名已无意义。
【正确的评测方式】
当模型能力是推理计算量的函数时,没有x轴的benchmark分数没有意义。Brown认为正确做法是画性能与推理计算量的曲线,x轴可以是token数、美元或耗时;也可以设明确预算上限。但目前AI评测还忽略推理预算这个变量。
【问题爆发原因】
两年前,推理时计算只是o1的专属概念,而Brown是o1的核心贡献者。此前他有诸多成果,一直在让AI学会想更久、想更深。2024年o1让「推理时间换准确率」受关注,到2026年推理时计算成前沿模型标配。学术界给出覆盖率与采样次数呈对数线性关系,且越强的模型在更长时间跨度上收益越大。
【Brown的建议】
第一,实验室发布新模型时公布性能 - 推理计算量曲线,至少标明分数对应的推理预算,否则就像两家公司比营收却不标注时间跨度。第二,benchmark排行榜追踪推理用量或设定明确预算上限,ARC-AGI已在做但不是行业标准。第三,安全准备框架和负责任扩展政策显式纳入推理计算量,安全评估不能只测「默认状态」。Brown理想中的安全评估是一张图,但长期评估可能无法靠外推解决,AI实验室还将面临agent运行周期超过新模型开发周期的问题。
【超级智能的思考】
如果模型能力是推理计算量的函数,且越强的模型高原期越远,那「超级智能」可能不是一个时刻,而是一条曲线。不同推理预算会有不同结果,没人测过给前沿模型高额推理预算的情况,但对数线性关系表明曲线未到顶。超级智能可能只需足够的钱和时间。
【AI评估的变革】
过去AI行业习惯一个模型一个分数排名的评估方式,如今跑分进入「二维时代」,模型能力从点变成曲线,评估从分数变成图,每个「第一」要乘以推理预算变量。全球科技巨头在AI基础设施投入巨大,同一个开源模型因资源不同能力差距大。当「智能」可用美元标价,「超级智能」不再是是非题,谁先适应二维坐标系,谁就先看清ASI决赛的真实比分。