所有AI工具AI其他工具

DebugBench-一个LLM调试基准平台

DebugBench是一个包含4,253个实例的LLM调试基准,涵盖了C++、Java和Python中四个主要的漏洞类别和18个次要类别。为构建DebugBench,作者从LeetCode社区收集了代码片段,使用GPT-4...

标签:

DebugBench是一个包含4,253个实例的LLM调试基准,涵盖了C++、Java和Python中四个主要的漏洞类别和18个次要类别。为构建DebugBench,作者从LeetCode社区收集了代码片段,使用GPT-4向源数据植入漏洞,并确保了严格的质量检查。
DebugBench的特点:
1. 包含4,253个实例
2. 涵盖C++、Java和Python中的主要和次要漏洞类别
3. 使用GPT-4植入漏洞并进行质量检查
4. 评估多个商业模型和开源模型的调试性能
5. 比较LLM的调试和代码生成之间的相关性

DebugBench的功能:
1. 评估语言模型的调试能力
2. 分析不同漏洞类别对调试性能的影响
3. 研究运行时反馈对调试性能的影响
4. 帮助LLM在调试方面的发展

相关导航

暂无评论

暂无评论...