OpenAI发布漏洞猎人：AI 更擅长自我修复，而非依靠人类帮助

AIGC最新资讯1年前 (2024)更新 AiBots

194 0 0

OpenAI推出了一款名为CriticGPT的新模型，这个模型专为发现GPT-4生成的代码错误而生。

在官方博客中，OpenAI透露，他们训练了CriticGPT，让它审查由ChatGPT生成的代码，并发现有CriticGPT帮助的情况下，人类审查员的错误检测效率提高了60%。

当然，任何AI生成的内容都需要反复检查，但这一进步无疑提升了输出质量。OpenAI表示，用户可以对ChatGPT生成的代码更加放心，不过，他们也不忘提醒，“CriticGPT的建议并非总是正确的”。

01

AI错误越来越难发现

CriticGPT对ChatGPT用户来说无疑是个好消息。首先，它减轻了人类监督AI输出的负担，让专门训练来发现错误的AI帮助人类，效率自然提高。其次，OpenAI计划将类似CriticGPT的模型集成到“从人类反馈中强化学习”（RLHF）的对齐管道中，以便在处理复杂任务时辅助人类监督AI。 OpenAI发布漏洞猎人：AI 更擅长自我修复，而非依靠人类帮助

OpenAI指出，这一过程的关键是让他们所谓的AI训练师对不同的ChatGPT响应进行评分。虽然目前这种方法相对有效，但随着ChatGPT变得越来越准确，错误变得越来越隐蔽，AI训练师的任务也会越来越困难。

OpenAI曾解释，未来的AI系统可能变得过于复杂，难以完全理解。试想一下，如果一个模型生成了上百万行复杂代码，你能完全信任人类能可靠地判定这些代码是否安全运行吗？

02

CriticGPT的培训与实战

为了培训CriticGPT，AI训练师向其输入包含错误的代码，并为其提供类似发现错误的反馈示例。之后，通过实验检验CriticGPT能否捕捉到手动插入的错误和ChatGPT自发生成的错误。 OpenAI发布漏洞猎人：AI 更擅长自我修复，而非依靠人类帮助

结果显示，在自然发生的错误中，AI训练师更喜欢CriticGPT的反馈，相比ChatGPT的反馈，这种新模型在63%的案例中表现更好。CriticGPT的优势在于，它减少了不必要的小错误报告，更实用，也更少出现幻觉的问题。如此看来，AI不仅在生成内容方面出类拔萃，在自我审查和修复方面也开始展露头角。或许在未来，我们将见证AI之间的更多“切磋”，以达到更高效的自我优化。