OLMES-开源LLM评估系统官网

由AI2开发的开源LLM评估系统，用于对基础模型和指令微调模型进行全面评估。
OLMES的特点:
1. 支持深度任务配置
2. 记录详细预测数据(包括logprobs等)
3. 自定义指标聚合
4. 支持多种结果存储选项(Google Sheet/HuggingFace/S3等)
5. 可重现OLMo和Tulu-3等研究论文中的评估结果

OLMES的功能:
1. 进行基础模型和指令微调模型的评估
2. 配置复杂的评估任务
3. 收集和分析模型预测的详细数据
4. 自定义并聚合评估指标
5. 将评估结果存储到多种平台

相关推荐

NHugging Face + Visual Blocks 自定义组件-无代码环境下的机器学习节点

一个自定义 Hugging Face 节点的开源项目，用于 Google Visual Blocks for ML，允许用户在无代码图形编辑器中创建机器学习管道，支持多种机器学习功能并与Hugging Face Serverless API集成。

Efficient Recorder-隐私保护的数据捕捉工具

Efficient Recorder是一个开源的、注重隐私保护的数据捕捉工具，旨在提供一个电池友好的解决方案，用于屏幕、系统音频和麦克风录音，并将录制的数据流式传输到任何兼容S3的云存储服务中。

NTigerLab-开源LLM工具包，构建应用更轻松

TigerLab是一个开源的LLM（大语言模型）工具包，旨在提供用户友好的接口和功能，帮助开发者轻松构建和部署基于大语言模型的应用程序。它集成了多种强大的功能，包括嵌入技术、模型微调和AI安全性，支持不同使用场景的需求。

Devin.cursorrules-智能编程体验的升级工具

将20美元的Cursor或Windsurf升级成接近Devin的智能编程体验。该项目通过智能流程规划与自我进化能力，使用户能够高效地进行编程，集成多种工具，支持自动化执行，提升开发效率。

Nlealone-bench-性能测试工具，专注于spsc链表

lealone-bench 是一个用于性能测试的项目，尤其关注 spsc 链表的性能对比，包含了多种性能测试工具和示例代码。

RAG Cookbooks-高级检索增强生成技术合集

高级检索增强生成(RAG)技术合集，包含10种先进RAG实现方案的详细教程。从基础的Naive RAG到高级的Adaptive RAG，提供完整的代码实现和评估方法。使用LangChain、Pinecone等主流工具，适合研究人员和开发者学习和实践RAG技术

Nsqlite-lembed-用于文本嵌入生成的SQLite扩展

这是一个正在开发中的SQLite扩展，旨在使用llama.cpp生成文本嵌入，适用于文本语义搜索和分析。

ChatTTS_Speaker-音色评分与打标助手

ChatTTS音色评分与打标助手：基于ERes2NetV2模型的音色稳定性评估工具，提供2600个音色的性别、年龄和特征分类，支持在线试听与下载使用，适用于语音合成与音色选择

Awesome-Unsupervised-Object-Localization-无监督目标定位的精彩资源汇总

这是一个关于2D图像中无监督目标定位的优秀作品的精选列表，涵盖了相关论文、方法分类、最新研究动态及社区讨论。

Nawesome-brain-decoding-汇集大脑活动重建视觉信息的论文

一个精心策划的关于大脑活动重建视觉信息的优秀论文列表，旨在帮助研究人员和爱好者了解大脑解码领域的前沿研究和最新进展。

Tune-A-Video-通过文本直接生成视频。

Tune-A-Video 是一个基于文本描述生成视频的工具，支持多种风格和主题，能够快速输出高质量视频，且具有用户友好的界面，适合各种创作需求。

NLatitude LLM-开源的提示工程平台

开源的提示工程平台，旨在帮助开发者和产品团队更容易地构建和管理 AI 特性，提供协作管理、测试、性能分析和实时评估等功能，支持云端和自托管两种部署方式

Langcorn-自动化部署LLM应用的API服务

用 LangChain + FastApi 部署自动化LLM应用，以便将 LangChain 应用作为 API 提供服务

Kokoros-超快文本转语音引擎

用Rust语言实现的超快文本转语音（TTS）引擎，只需一个命令就能合成高质量语音，支持多种语言，让语音合成变得简单快捷

Nagibot_x1_train-智元灵犀X1的强化学习训练代码

智元灵犀X1所使用的强化学习训练代码，可配合智元灵犀X1配套的推理软件进行真机和仿真的行走调试，或导入其他机器人模型进行训练。

Roop-使用换脸技术修复虚焦人脸的视频处理工具

Roop是一个高效的视频处理工具，利用换脸技术修复虚焦的人脸。用户可以选择一张清晰的人脸图像作为参考，轻松地修复模糊视频。该工具支持长时间视频处理，且处理参数可根据用户需求进行调整，确保换脸效果的质量。

NFast-Powerful-Whisper-AI-Services-API-强大的异步语音识别服务

旨在构建一个强大、高性能的异步 Whisper 服务 API，支持高扩展性和分布式处理需求，适用于大规模自动语音识别场景，并集成了多平台爬虫，如抖音和 TikTok。

MCP-Bridge-简化与MCP工具的交互

MCP-Bridge是一个中间件，提供与OpenAI兼容的接口，使开发者能够通过OpenAI API轻松调用MCP工具，无需额外的支持。

暂无评论

暂无评论...