AI开源项目

ai-rd-tasks-评估大语言模型AI研发能力的任务集合

一套评估大语言模型AI研发能力的任务集合,包含7个具有挑战性的任务,涵盖Rust代码编程、GPT-2微调、嵌入修复、LLM训练优化、GPU内核优化等领域,每个任务都有明确的评分标准和基...

一套评估大语言模型AI研发能力的任务集合,包含7个具有挑战性的任务,涵盖Rust代码编程、GPT-2微调、嵌入修复、LLM训练优化、GPU内核优化等领域,每个任务都有明确的评分标准和基准分数,用于测试AI代理与人类专家的能力对比
ai-rd-tasks的特点:
1. 包含7个具有挑战性的任务
2. 涵盖多个领域,如Rust代码编程和LLM训练优化
3. 每个任务都有明确的评分标准和基准分数
4. 可用于评估AI代理与人类专家的能力对比

ai-rd-tasks的功能:
1. 使用任务集合进行AI研发能力评估
2. 对模型进行微调和优化
3. 测试AI代理在特定编程任务中的表现
4. 比较AI模型与人类专家的性能

相关推荐

暂无评论

暂无评论...