OpenAI最新推出了升级版AI编程能力测试工具SWE-bench Verified

未分类1年前 (2024)发布 OneNav

114 0 0

8月14日凌晨OpenAI在社交媒体“X”平台上宣布推出了一款新工具，叫做SWE-bench Verified。这个工具是之前一个叫做SWE-bench的工具的升级版，专门用来测试AI在解决实际编程问题上的能力。这个新版本经过了人工审核，确保里面的任务和测试都是合理且清晰的。

OpenAI最新推出了升级版AI编程能力测试工具SWE-bench Verified SWE-bench的任务是让AI去修复从GitHub上找到的代码问题。这就像是一个编程挑战，AI需要修改代码，同时保证新加入的和原有的功能都能正常工作，不出错。之前版本的SWE-bench存在一些问题，比如测试太复杂、问题描述不清楚、设置起来困难，这些都可能导致对AI能力的误判。但是，经过与原作者合作，我们现在有了这个升级版，里面包含了500个经过专业人士仔细挑选和审核的样本。

这些专业人士检查了问题的描述和测试的合理性，并用0到3的等级来评估问题的严重性。这个审核过程很严格，每个样本都经过了多次检查，以确保万无一失。新版的SWE-bench Verified显示，AI模型的表现有所提升，比如一个叫做GPT-4o的模型，在解决这些问题上的表现比之前好了很多。

这个新工具可以帮助我们更好地了解AI在不同难度任务上的表现，尤其是在比较简单的问题上，AI的表现有了显著的提高。SWE-bench Verified符合OpenAI的标准，它能更准确地评估AI在中等风险水平下的编程能力。随着AI技术的进步，不断改进这样的测试工具非常重要。

现在，SWE-bench Verified已经可以下载了，还包括了所有的审核笔记和评分标准，这样大家都可以更清楚地看到AI的表现，也有助于进一步的研究。

OpenAi的SWE-bench Verified下载地址：【点击下载】

# 未分类