![](https://cdn.msbd123.com/ad/ad.png)
DebugBench是一个包含4,253个实例的LLM调试基准,涵盖了C++、Java和Python中四个主要的漏洞类别和18个次要类别。为构建DebugBench,作者从LeetCode社区收集了代码片段,使用GPT-4向源数据植入漏洞,并确保了严格的质量检查。
DebugBench的特点:
1. 包含4,253个实例
2. 涵盖C++、Java和Python中的主要和次要漏洞类别
3. 使用GPT-4植入漏洞并进行质量检查
4. 评估多个商业模型和开源模型的调试性能
5. 比较LLM的调试和代码生成之间的相关性
DebugBench的功能:
1. 评估语言模型的调试能力
2. 分析不同漏洞类别对调试性能的影响
3. 研究运行时反馈对调试性能的影响
4. 帮助LLM在调试方面的发展
相关导航
暂无评论...