AI开源项目

OLMES-开源LLM评估系统

由AI2开发的开源LLM评估系统,用于对基础模型和指令微调模型进行全面评估。

由AI2开发的开源LLM评估系统,用于对基础模型和指令微调模型进行全面评估。
OLMES的特点:
1. 支持深度任务配置
2. 记录详细预测数据(包括logprobs等)
3. 自定义指标聚合
4. 支持多种结果存储选项(Google Sheet/HuggingFace/S3等)
5. 可重现OLMo和Tulu-3等研究论文中的评估结果

OLMES的功能:
1. 进行基础模型和指令微调模型的评估
2. 配置复杂的评估任务
3. 收集和分析模型预测的详细数据
4. 自定义并聚合评估指标
5. 将评估结果存储到多种平台

相关推荐

暂无评论

暂无评论...