Cognition发布FrontierCode：突破现有局限，精准衡量AI代码“可合并性”-迪斯科星球

【导语：当AI编程模型代码正确性不再是难题，衡量代码“质量”成新焦点。Cognition发布FrontierCode评测基准，与现有基准不同，聚焦代码是否能被维护者合并，为AI编程能力评估带来新变革。】

FrontierCode：聚焦代码“可合并性”评测

当AI编程模型的代码正确性不再是问题，如何衡量代码“质量”成为新焦点。Cognition发布的FrontierCode，是专门衡量AI模型能否写出达到生产合并标准代码的评测基准。它与现有编程评测基准不同，不评估“代码对不对”，而是关注“维护者会不会真的合并这个PR”。

现有基准局限性凸显

当前主流编程评测基准如SWE - Bench Verified和Pro，设计针对能力较弱阶段的模型，存在明显局限性。它们只验证代码的功能正确性，不验证代码质量，且误分类错误率较高，即通过测试的代码补丁未必能被人类维护者真正接受。METR实验证实，许多在现有基准上高分的模型，生成的补丁在实际代码审核中会被拒绝。

FrontierCode的创新解决思路

FrontierCode与开源社区顶级维护者合作，36个旗舰开源项目的维护者参与任务构建，每人花在每个任务上的时间超过40小时。他们定义了各自代码仓库中“可合并”的具体标准，并将这些标准转化为评分规则。

评分维度涵盖行为正确性、回归安全性、机械清洁度、测试质量、代码范围以及代码质量等方面。为解决测试覆盖不足问题，引入“反向经典测试”机制，确保测试的有效性；还引入“自适应经典评分”方法，对多样化解法进行严格而确定的测试。

各模型在FrontierCode下的表现

FrontierCode共包含150个任务，分为三个难度子集。目前最佳模型Claude Opus 4.8在最难的Diamond子集上仅得分13.4%，GPT - 5.5得6.3%，Gemini 3.1 Pro得4.7%，开源模型中表现最好的Kimi K2.6在Diamond上仅得3.8%，这表明即使是当前最强大的模型，在这项新标准下仍有巨大提升空间。

FrontierCode：准确排名推动能力突破

Cognition表示，FrontierCode的评分误差比SWE - Bench Pro低81%，是目前最准确的模型能力排名。为防止任务污染，Cognition不打算公开任务内容，而是向所有模型开发者开放评测服务，希望推动前沿编程能力的进一步突破。

编辑观点：FrontierCode的出现弥补了现有编程评测基准的不足，为AI模型生成代码的质量评估提供了更精准的标准，有望推动AI编程能力迈向新高度。

企业官网建设流程全解析

FrontierCode：聚焦代码“可合并性”评测

现有基准局限性凸显

FrontierCode的创新解决思路

各模型在FrontierCode下的表现

FrontierCode：准确排名推动能力突破

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

FrontierCode：聚焦代码“可合并性”评测

现有基准局限性凸显

FrontierCode的创新解决思路

各模型在FrontierCode下的表现

FrontierCode：准确排名推动能力突破

热门文章

文章分类

标签云

相关文章

W5500嵌入式DHCP客户端源码包，含完整驱动文件与模块化目录结构

2026年想选购高品质双级滤波器，市面上知名工厂哪家更可靠

从数据手册到可靠设计：MCU外设电气规格与接口时序实战指南

需要专业的网站建设服务？