PromptBench-评估大型语言模型的统一框架官网

用于评估和理解大型语言模型的统一评估框架，提供了用户友好的API，方便研究人员进行模型性能评估、提示工程和对抗提示攻击评估等。
PromptBench的特点:
1. 统一的评估框架
2. 用户友好的API
3. 支持模型性能评估
4. 支持提示工程
5. 支持对抗提示攻击评估

PromptBench的功能:
1. 评估大型语言模型的性能
2. 进行提示工程实验
3. 测试模型对抗提示的鲁棒性
4. 提供基准测试结果
5. 与其他评估工具集成使用

相关推荐

MedicalGPT是一个医疗GPT模型的训练平台，利用ChatGPT训练流程，帮助用户训练自己的医疗专用模型。

这个开源项目提供了基于ChatGPT API的前端界面大列表，旨在帮助用户更方便地使用ChatGPT API进行聊天机器人的开发。该项目包含多种前端GUI客户端，满足不同用户需求。主要功能是提供可定制的前端界面，使用户更轻松地使用ChatGPT API开发聊天机器人。

Youtube-Whisper是一个Gradio应用，通过音频提取和OpenAI的Whisper模型，能够高效转写YouTube视频内容，帮助用户快速生成字幕或记录视频信息。

Repopack是一款功能强大的工具，可将整个存储库打包成一个 AI 友好文件，适用于大型语言模型 (LLM) 和其他 AI 工具。

大型语言模型研究资源库，专注于OpenAI o1和推理技术，持续更新以追踪LLM推理的最新进展

Firecrawl 是一个专门将网站内容转换为适合大语言模型（LLM）处理的Markdown格式文本的工具，能够有效提取和格式化各种网站的信息，支持多种网站结构，便于用户进行批量处理和文档生成。

整理和提供用于构建通用语音、音频和音乐基础模型的数据集列表，以及相关的元数据和获取途径。该项目旨在帮助研究人员和开发者快速找到所需的音频数据集，以便进行模型训练和分析。

在关系数据库系统中添加向量功能的教程，在CMU-DB的BusTub教育数据库系统的修改版上实现类似pgvector的能力，包括向量存储、向量表达式和向量索引

由百川智能开发的一个开源可商用的大规模预训练语言模型，支持中英双语，基于Transformer结构，训练于约1.2万亿tokens，具有70亿参数，提供4096的上下文窗口长度，在标准的中文和英文权威benchmark（C-EVAL/MMLU）上均取得同尺寸最好的效果。

JARVIS是一个框架，利用像ChatGPT这样的语言模型，连接机器学习社区中的各种AI模型，从而解决复杂的AI任务。

openai-translator 是一款基于 ChatGPT API 的跨平台翻译工具，现已支持 Gemini Pro API，旨在为用户提供高效、便捷的翻译服务。

这个开源项目是一个多智能体系统，用于基于人工智能的软件开发。它的主要功能是将自然语言需求转化为可以工作的软件。该项目支持任何开发语言，并且可以扩展现有的基础代码。

苏秦（suqin）语言大模型全工具链 WebUI 整合包，旨在实现目前各大语言模型的全流程工具 WebUI 整合包，无需编写代码即可拥有自己的定制模型与专属应用。

这是一个关于几何生成模型（GGM）的教程资料，旨在帮助用户理解和实现各种生成模型。它提供了理论背景、实际应用示例，并支持多种模型的实现，同时包含易于使用的代码示例以及最新的研究进展。

一个旨在增强浏览器体验的项目，提供各种有趣和实用的功能。

bark是一个文字生成音频模型，能够在语音中融合笑声、哭声和叹气等多种情感表达，同时支持生成背景噪音或音效，提供惊艳的英文语音效果，并允许试听多种音频效果。

RoboManipBaselines是一个集成了多种模仿学习方法和基准任务环境的软件，旨在为机器人操控提供基准和支持，提升学习效率与准确性。

使用ChatGPT让您能与任何ArXiv论文进行对话，利用RAG(检索增强生成)系统，通过解析PDF、文本嵌入和上下文相关性等技术，提供了一个交互式的聊天界面，让您能与论文进行对话和交流。

暂无评论...