Mistral Evals-用于Mistral AI评估的代码库

0

AI开源项目

Mistral Evals-用于Mistral AI评估的代码库

一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库，支持多轮LLM-as-a-judge评估任务

链接直达手机查看

一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库，支持多轮LLM-as-a-judge评估任务
Mistral Evals的特点:
1. 运行Mistral AI发布的评估
2. 提供标准化的提示
3. 支持解析和度量计算
4. 兼容流行的学术基准测试
5. 支持多轮LLM-as-a-judge评估任务

Mistral Evals的功能:
1. 运行特定的评估任务
2. 生成标准化提示
3. 进行结果解析和度量
4. 用于多个学术基准测试
5. 集成到机器学习评估工作流中

相关推荐

Lumina-mGPT-多模态生成模型，文本转图像

Lumina-mGPT-多模态生成模型，文本转图像

NLumina-mGPT-多模态生成模型，文本转图像

Lumina-mGPT是一个多模态自回归模型家族，专注于从文本描述生成高质量的图像，能够处理多种视觉和语言任务，具备强大的生成能力和灵活的应用场景。

Awesome Remote Sensing Foundation Models-遥感基础模型论文资源列表

Awesome Remote Sensing Foundation Models-遥感基础模型论文资源列表

Awesome Remote Sensing Foundation Models-遥感基础模型论文资源列表

该项目提供遥感基础模型相关论文的资源列表，涵盖遥感视觉、视觉-语言、生成式、位置和音频等多个方向的模型，旨在为研究人员提供全面的参考和支持。

Awesome-ChatGPT-ChatGPT资源汇总与应用示例

Awesome-ChatGPT-ChatGPT资源汇总与应用示例

Awesome-ChatGPT-ChatGPT资源汇总与应用示例

一个关于ChatGPT的资源集合，包含各种工具、库和应用示例，帮助用户更好地使用和集成ChatGPT。

Awesome Domain LLM-垂直领域的开源资源汇聚

Awesome Domain LLM-垂直领域的开源资源汇聚

NAwesome Domain LLM-垂直领域的开源资源汇聚

收集和梳理垂直领域的开源模型、数据集及评测基准，方便研究人员和开发者使用。

Awesome LLM Resources-全球中文大语言模型资源汇总

Awesome LLM Resources-全球中文大语言模型资源汇总

Awesome LLM Resources-全球中文大语言模型资源汇总

专门整理和总结全球中文大语言模型（LLM）资源的项目，包括数据、微调、推理、评估、体验、RAG、Agent、搜索、书籍和课程等方面的资源

NewHope-面向编程的llama-2-13b微调语言模型

NewHope-面向编程的llama-2-13b微调语言模型

NewHope-面向编程的llama-2-13b微调语言模型

NewHope是一个专注于编程的语言模型，基于llama-2-13b进行微调，结合了GPT-4的编程能力，旨在高效处理各种编程任务，支持多种编程语言，提升开发者的工作效率。

lex-gpt

lex-gpt

这个开源项目使用Open AI技术，可以搜索Lex Fridman的播客内容，并利用机器学习算法提高搜索结果的准确性。

llama2-webui-本地运行Llama 2的Gradio界面

llama2-webui-本地运行Llama 2的Gradio界面

Nllama2-webui-本地运行Llama 2的Gradio界面

在本地使用Gradio用户界面在GPU或CPU上运行Llama 2，支持Linux/Windows/Mac系统。

Awesome-Novel-Class-Discovery-机器学习新类发现资源汇总

Awesome-Novel-Class-Discovery-机器学习新类发现资源汇总

Awesome-Novel-Class-Discovery-机器学习新类发现资源汇总

一个关于机器学习新类发现(Novel Class Discovery)相关资源的综合列表，汇集了大量研究论文、方法和工具，旨在为研究人员提供便捷的参考和学习资源。

CAG-比RAG快40倍的知识获取工具

CAG-比RAG快40倍的知识获取工具

CAG-比RAG快40倍的知识获取工具

CAG(缓存增强生成)通过预先将所有知识加载到模型上下文中，彻底改变了知识获取方式，像是一个随身携带的工具书，速度比RAG快40倍，准确率和连贯性显著提升。

rtp-llm-高性能的LLM推理加速引擎

rtp-llm-高性能的LLM推理加速引擎

Nrtp-llm-高性能的LLM推理加速引擎

rtp-llm 是阿里巴巴大模型预测团队开发的 LLM 推理加速引擎，提供高性能、低成本和用户友好的推理服务，帮助客户和开发人员定制适合其业务的推理服务，从而促进业务增长

audio2photoreal-从音频生成逼真虚拟人物形象

audio2photoreal-从音频生成逼真虚拟人物形象

audio2photoreal-从音频生成逼真虚拟人物形象

从音频到照片真实的体现：在对话中合成虚拟人物形象。该项目可以从多人对话中的语音生成与对话相对应的逼真面部表情、完整身体和手势动作。

DockerHub-国内Docker镜像源加速神器

DockerHub-国内Docker镜像源加速神器

NDockerHub-国内Docker镜像源加速神器

国内Docker镜像源加速神器，汇总了众多可用的DockerHub镜像加速地址，助力开发者快速拉取镜像，提升开发效率。

Orca-语言模型管控框架

Orca-语言模型管控框架

Orca-语言模型管控框架

用Rust语言开发的语言模型管控框架，其设计目标是提供一个简单易用且易扩展的管控框架，帮助开发者创建语言模型管控应用。

1Backend-简化微服务部署与维护的平台

1Backend-简化微服务部署与维护的平台

1Backend-简化微服务部署与维护的平台

1Backend 是一个平台，旨在简化 lambda/微服务的部署、运行和维护，允许用户快速启动应用并连接到所需的基础设施。

GoJS-灵活的交互式图表库

GoJS-灵活的交互式图表库

GoJS-灵活的交互式图表库

GoJS 是一个灵活的库，可用于创建多种不同类型的交互式图表，包括数据可视化、绘图工具和图形编辑器。

carrot-一个提升开发效率的工具

carrot-一个提升开发效率的工具

carrot-一个提升开发效率的工具

carrot是一个用于简化和优化项目开发的工具，提供多种实用功能以提升开发效率。

lealone-bench-性能测试工具，专注于spsc链表

lealone-bench-性能测试工具，专注于spsc链表

Nlealone-bench-性能测试工具，专注于spsc链表

lealone-bench 是一个用于性能测试的项目，尤其关注 spsc 链表的性能对比，包含了多种性能测试工具和示例代码。

暂无评论

暂无评论...

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3