![OpenAI最新推出了升级版AI编程能力测试工具SWE-bench Verified](https://aitop100app-1251510006.cos.ap-shanghai.myqcloud.com/public/2024/08/14/09/26/44/1020335c-12f3-4d2f-851b-c455650d5aad.png?imageMogr2/format/webp)
8月14日凌晨OpenAI在社交媒体“X”平台上宣布推出了一款新工具,叫做SWE-bench Verified。这个工具是之前一个叫做SWE-bench的工具的升级版,专门用来测试AI在解决实际编程问题上的能力。这个新版本经过了人工审核,确保里面的任务和测试都是合理且清晰的。
SWE-bench的任务是让AI去修复从GitHub上找到的代码问题。这就像是一个编程挑战,AI需要修改代码,同时保证新加入的和原有的功能都能正常工作,不出错。之前版本的SWE-bench存在一些问题,比如测试太复杂、问题描述不清楚、设置起来困难,这些都可能导致对AI能力的误判。但是,经过与原作者合作,我们现在有了这个升级版,里面包含了500个经过专业人士仔细挑选和审核的样本。
这些专业人士检查了问题的描述和测试的合理性,并用0到3的等级来评估问题的严重性。这个审核过程很严格,每个样本都经过了多次检查,以确保万无一失。新版的SWE-bench Verified显示,AI模型的表现有所提升,比如一个叫做GPT-4o的模型,在解决这些问题上的表现比之前好了很多。
这个新工具可以帮助我们更好地了解AI在不同难度任务上的表现,尤其是在比较简单的问题上,AI的表现有了显著的提高。SWE-bench Verified符合OpenAI的标准,它能更准确地评估AI在中等风险水平下的编程能力。随着AI技术的进步,不断改进这样的测试工具非常重要。
现在,SWE-bench Verified已经可以下载了,还包括了所有的审核笔记和评分标准,这样大家都可以更清楚地看到AI的表现,也有助于进一步的研究。
OpenAi的SWE-bench Verified下载地址:【点击下载】
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...