DeepMark-基准测试工具，评估LLM性能官网

DeepMark是一款基准测试工具，旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能，帮助开发者理解模型的表现并优化其在不同场景下的应用。
DeepMark的特点:
1. 提供特定任务指标的评估
2. 支持自定义数据进行性能测试
3. 构建可靠的GenAI解决方案
4. 创建独特的测试环境以评估语言模型

DeepMark的功能:
1. 使用DeepMark评估LLM在特定任务上的表现
2. 通过自定义数据进行模型性能基准测试
3. 集成DeepMark到现有的AI开发流程中
4. 生成可预测和可靠的性能报告

相关推荐

ReComA-简化推理问题开发的工具库

ReComA旨在通过Agent通信实现推理问题的简化开发，提供了一个灵活的框架，支持多Agent间的通信，易于集成到现有系统中。

Nanbeige-16B-强大的160亿参数大语言模型

Nanbeige-16B（南北阁-16B）是南北阁大模型实验室研发的160亿参数规模的大语言模型，采用了2.5T Tokens进行预训练，数据包含大量互联网高质量语料、各类书籍、代码等领域脱敏文本，在各个权威测评数据集上都取得了不错的效果。本次发布包含有 Base、Chat 以及扩展上下文长度的 Base-32k、Chat-32k 版本。

NLlumnix-高效调度LLM请求的服务层

Llumnix是一个针对大型语言模型（LLM）多实例服务的高效且易于使用的请求调度层，支持动态调度、内存碎片化减少、加载均衡优化，并且易于与现有的多实例部署平台集成。

FastAPI-现代快速的API构建框架

FastAPI 是一个现代、快速（高性能）的 Web 框架，用于构建 APIs，基于标准 Python 类型提示。它结合了 Starlette 的高性能和 Pydantic 的数据验证功能，支持异步编程，自动生成 OpenAPI 文档，特别适合构建RESTful APIs和微服务架构。

k8sgpt

这个开源项目将k8s和gpt（生成式预训练模型）整合到一起，提供了命令行接口。

Voyager-一个AI助手，评估我的世界游戏进度

Voyager是一个用于评估和指导《我的世界》（Minecraft）游戏进度的AI助手，能够帮助玩家理解任务要求并提供改进建议。它支持多种输入信息格式，方便玩家获取反馈，以提升游戏体验。

NHuggingLLM-使用ChatGPT API创造新功能

课程聚焦于如何使用ChatGPT相关API（可使用国内大模型API）创造新的功能和应用。内容主要为介绍ChatGPT原理、使用和应用，降低使用门槛，让更多感兴趣的非NLP或算法专业人士能够无障碍使用LLM创造价值。

Nrtp-llm-高性能的LLM推理加速引擎

rtp-llm 是阿里巴巴大模型预测团队开发的 LLM 推理加速引擎，提供高性能、低成本和用户友好的推理服务，帮助客户和开发人员定制适合其业务的推理服务，从而促进业务增长

NHackberry-Pi_Zero-便携式 Linux 终端，易于开发

手持式 Linux 终端，以 Raspberry pi Zero 2W 为核心，配备 4 英寸 720X720 TFT 显示屏和原始的 BlackBerry 键盘。双电池设计（换电池时不会停机）。

ChatGPT-in-Slack

这个开源项目提供了一个Swift示例，展示了如何构建一个Slack应用程序，使最终用户能够与ChatGPT机器人进行交互，其中涉及到了开源和机器学习技术。

NTimesFM-一个高效的时间序列预测模型

TimesFM是Google Research开发的预训练时间序列基础模型，旨在提高预测准确性并简化部署过程，支持多种格式的数据，可灵活预测未来时间点，并适用于多个行业的时间序列分析。

NFanWunHak-开源字体，简繁自动转换

FanWunHak是一个开源的繁媛黑体字体，能够自动处理大部分情况，将简体中文转换为繁体中文，提供多种字体样式，易于集成和使用，且得到了社区的支持。

Nrgbx-根据照片生成分层图像

rgbx 是一个开源模型，能够根据输入的图片自动生成环境光遮蔽(AO)、法线图和粗糙度图，从而实现从单张照片反推出多层图像的功能，方便用于3D建模和游戏开发。

VLog

这个开源项目VLog可以将视频转化为长文档，同时支持对文档进行提问和对话，主要使用的技术包括ChatGPT、BLIP2、GRIT、Whisper和LangChain。与之前推荐的MiniGPT O类似，但实现了多模态。

NJailbreakBench-评估大型语言模型的鲁棒性

JailbreakBench 是一个开源的鲁棒性基准，旨在评估对大型语言模型(LLM)进行大规模越狱的进展，提供丰富的数据集和评估工具，以支持研究人员和开发者在这个领域的探索。

Anything-3D-将任意物体提升至3D

Anything-3D是一个强大的工具，结合了Segment Anything技术，支持对任意物体进行3D分割，旨在为用户提供便捷的3D模型创建和处理功能。它适用于多种3D应用场景，易于集成和使用，能够显著提高工作效率。

NText2midi-将文字转化为MIDI音乐

一款将文字描述转化为MIDI音乐文件的模型，能让用户根据详细的文本提示生成符合特定和弦、节奏和风格的符号音乐，为音乐创作带来全新的便捷方式

NMyoSuite-基于肌肉骨骼模型的仿真环境

MyoSuite是一个集合，包含使用MuJoCo物理引擎仿真的肌肉骨骼模型任务，并与OpenAI gym API兼容，适用于强化学习和机器学习研究。

暂无评论

暂无评论...