OpenAI 宣布推出 SWE – bench Verified 代码生成评估基准,以更准确评估人工智能模型在软件工程任务中的表现。SWE – Bench 是用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集,收集了来自 12 个流行 Python 仓库的 2294 个 Issue – Pull Request 对,测试时 LLM 会根据代码库和 issue 描述生成补丁,基准使用 FAIL_TO_PASS 和 PASS_TO_PASS 两种测试类型,分别检查问题是否解决和确保代码更改不破坏现有功能。