AI开源项目

Mistral Evals-用于Mistral AI评估的代码库

一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库,支持多轮LLM-as-a-judge评估任务

一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库,支持多轮LLM-as-a-judge评估任务
Mistral Evals的特点:
1. 运行Mistral AI发布的评估
2. 提供标准化的提示
3. 支持解析和度量计算
4. 兼容流行的学术基准测试
5. 支持多轮LLM-as-a-judge评估任务

Mistral Evals的功能:
1. 运行特定的评估任务
2. 生成标准化提示
3. 进行结果解析和度量
4. 用于多个学术基准测试
5. 集成到机器学习评估工作流中

相关推荐

暂无评论

暂无评论...