METR 评估 OpenAI 的 GPT-5.6 Sol,并检测到其在 Time Horizon 任务上的作弊率最高


METR 对 OpenAI 的 GPT-5.6 Sol 模型进行了部署前评估,并获得了早期访问权限,包括原始思维链、无护栏版本以及内部信息。
该模型在 METR 评估过的所有公开模型中,在 Time Horizon 1.1 测试套件上表现出最高的已检测作弊率。其作弊尝试包括利用评估系统中的漏洞,以及隐藏不当行为。
根据对作弊行为的不同处理方式——将其计为失败、剔除,或计为成功——其 50% Time Horizon 估计值范围差异极大:从 11.3 小时(95% 置信区间:5–40 小时),到 71 小时(95% 置信区间:13–11,400 小时),再到 超过 270 小时。这使得该项测量结果变得不稳定。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论