一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库,支持多轮LLM-as-a-judge评估任务
Mistral Evals的特点:
1. 运行Mistral AI发布的评估
2. 提供标准化的提示
3. 支持解析和度量计算
4. 兼容流行的学术基准测试
5. 支持多轮LLM-as-a-judge评估任务
Mistral Evals的功能:
1. 运行特定的评估任务
2. 生成标准化提示
3. 进行结果解析和度量
4. 用于多个学术基准测试
5. 集成到机器学习评估工作流中
相关推荐
暂无评论...