judges-轻量级的LLM评估库

0

AI开源项目

judges-轻量级的LLM评估库

一个轻量级的LLM评估库，提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式，可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查询质量等...

链接直达手机查看

一个轻量级的LLM评估库，提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式，可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查询质量等多个维度。
judges的特点:
1. 支持分类器和评分器两大类评判方式
2. 能够评估AI回答的事实准确性
3. 具备幻觉检测功能
4. 识别有害内容
5. 评估查询质量
6. 可以组合多个评判模型形成陪审团(Jury)

judges的功能:
1. 使用预设的AI评判模型进行评估
2. 组合多个评判模型以获得更全面的评估
3. 进行AI回答的质量检查
4. 实现多维度的AI评估

相关推荐

ReplaceAnything-可替换万物的工具

ReplaceAnything-可替换万物的工具

ReplaceAnything-可替换万物的工具

ReplaceAnything是一款能够准确保留指定物体，并通过输入提示词，实现超高质量内容替换的工具。它支持多种场景应用，适用于商用场景如AI模特、商品宣传图和艺术写真照。

Memory-Augmented Non-Local Attention for Video Super-Resolution-利用记忆增强非局部注意力提升视频超分辨率

Memory-Augmented Non-Local Attention for Video Super-Resolution-利用记忆增强非局部注意力提升视频超分辨率

Memory-Augmented Non-Local Attention for Video Super-Resolution-利用记忆增强非局部注意力提升视频超分辨率

一种通过记忆增强非局部注意力机制来提升视频超分辨率的方法，可以有效改善视频质量。

JARVIS-个人AI语音助手

JARVIS-个人AI语音助手

JARVIS-个人AI语音助手

JARVIS是一个个人AI语音助手，能够实现语音转文字、生成语言模型回复和文字转语音功能，并通过Web界面进行展示。

Lossless Cut-无损剪辑视频和音频的工具

Lossless Cut-无损剪辑视频和音频的工具

Lossless Cut-无损剪辑视频和音频的工具

一个用于无损剪辑视频和音频的工具，支持 HDR 预览和输出，并能够保留多条音轨。

21st-为设计工程师提供的npm

21st-为设计工程师提供的npm

21st-为设计工程师提供的npm

21st是为设计工程师打造的npm，汇集了最佳的shadcn UI风格React Tailwind组件、模块和钩子，帮助开发人员快速构建高质量的用户界面。

RISC Zero-零知识可验证的通用计算平台

RISC Zero-零知识可验证的通用计算平台

RISC Zero-零知识可验证的通用计算平台

RISC Zero 是一个基于 zk-STARKs 和 RISC-V 微架构的零知识可验证通用计算平台，能够在保护隐私的同时验证计算结果。

ACL 2022 Zero- and Few-Shot NLP Tutorial-基于预训练模型的NLP学习教程

ACL 2022 Zero- and Few-Shot NLP Tutorial-基于预训练模型的NLP学习教程

ACL 2022 Zero- and Few-Shot NLP Tutorial-基于预训练模型的NLP学习教程

基于预训练语言模型的零样本和少样本NLP的教程，提供了一系列的示例和实用工具，用于帮助研究人员和工程师理解和应用这些技术。

gpt-crawler-基于GPT的智能网页爬虫

gpt-crawler-基于GPT的智能网页爬虫

gpt-crawler-基于GPT的智能网页爬虫

gpt-crawler是一个友好的网页爬虫项目，旨在自动化内容抓取和处理，支持生成知识库和定制化问答机器人，适合各类用户使用。

HuggingFace Smolagents-极简但强大的AI代理框架

HuggingFace Smolagents-极简但强大的AI代理框架

HuggingFace Smolagents-极简但强大的AI代理框架

一个追求极简但强大的AI Agent框架，轻量级设计，支持多种LLM接入，提供安全的代码执行机制。

GraphRAG-图检索增强生成资源汇总

GraphRAG-图检索增强生成资源汇总

GraphRAG-图检索增强生成资源汇总

一个汇集了关于图检索增强生成（Graph Retrieval-Augmented Generation）资源的大列表，涵盖论文、工具和数据源，按图领域分类整理

awesome-llm-list-大型语言模型资源的概述

awesome-llm-list-大型语言模型资源的概述

awesome-llm-list-大型语言模型资源的概述

这是一个关于大型语言模型（LLM）选项的全面集合，提供了分类清晰的资源列表，便于用户查找和使用。该项目定期更新，包含新的模型和工具，同时接受社区贡献和建议。

talk-codebase-与代码库互动的智能聊天工具

talk-codebase-与代码库互动的智能聊天工具

talk-codebase-与代码库互动的智能聊天工具

talk-codebase 是一个与代码库和文档进行对话的智能工具，利用大型语言模型（LLM）解答用户的问题。它支持离线处理代码，确保用户隐私得到保护。

Hugging Face + Visual Blocks 自定义组件-无代码环境下的机器学习节点

Hugging Face + Visual Blocks 自定义组件-无代码环境下的机器学习节点

NHugging Face + Visual Blocks 自定义组件-无代码环境下的机器学习节点

一个自定义 Hugging Face 节点的开源项目，用于 Google Visual Blocks for ML，允许用户在无代码图形编辑器中创建机器学习管道，支持多种机器学习功能并与Hugging Face Serverless API集成。

Data Prep Kit-开源数据准备工具

Data Prep Kit-开源数据准备工具

NData Prep Kit-开源数据准备工具

Data Prep Kit 是一个开源项目，旨在为大型语言模型应用程序的开发者提供高效的数据准备和处理工具。该项目支持多种规模的数据处理，从个人电脑到数据中心级别，兼容代码和自然语言等多种数据模式，帮助用户简化数据准备流程。

大语言模型学习路径-全面学习大语言模型的资源与路径

大语言模型学习路径-全面学习大语言模型的资源与路径

大语言模型学习路径-全面学习大语言模型的资源与路径

分享一份大语言模型（LLM）学习路径，整理了相关的学习资料，涵盖从入门到深入的多个方面，包括理论、实践、微调训练等内容。

Depth Pro-快速生成清晰深度图的基础模型

Depth Pro-快速生成清晰深度图的基础模型

NDepth Pro-快速生成清晰深度图的基础模型

Depth Pro 是一个基础模型，用于零样本度量单目深度估计，能够在不到一秒的时间内生成清晰的深度图。它结合了真实和合成数据，利用高效的多尺度视觉变换器，提供高分辨率和准确的深度测量，适用于各种视觉任务。

GirlfriendGPT

GirlfriendGPT

GirlfriendGPT

这个开源项目可以训练AI成为一个女朋友，可以进行聊天、发语音和自拍等功能。

Fastrace-性能优先的追踪库

Fastrace-性能优先的追踪库

NFastrace-性能优先的追踪库

Fastrace是一个性能优先的追踪库，提供10到100倍于其他库的追踪速度，特别适用于性能敏感型应用。它易于集成，支持多种编程语言，能够帮助开发者快速识别和解决性能问题。

暂无评论

暂无评论...

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3