每日 AI 评测速递来啦(12.11)
2026/6/19 0:03:39 网站建设 项目流程

司南·Daily Benchmark 专区今日上新!

RVE-Bench

一个综合评测基准,包含基于推理的视频编辑和上下文视频生成两个互补子集,用于系统化评估模型在物理合理性和因果动态下的推理驱动视频编辑能力。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2009924

LISN-Bench

首个基于仿真的语言指令社会感知导航评测基准,构建于 Rosnav-Arena 3.0 之上,是第一个将指令遵循与场景理解纳入多样化环境的标准化社会感知导航评测。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2009920

IF-Bench

首个高质量的红外图像多模态理解评测基准,由 23 个红外数据集中的 499 张图像及 680 条精心筛选的视觉问答对组成,覆盖图像理解的 10 个核心维度。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2009663

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询