AI开源项目

judges-轻量级的LLM评估库

一个轻量级的LLM评估库,提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式,可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查询质量等...

一个轻量级的LLM评估库,提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式,可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查询质量等多个维度。
judges的特点:
1. 支持分类器和评分器两大类评判方式
2. 能够评估AI回答的事实准确性
3. 具备幻觉检测功能
4. 识别有害内容
5. 评估查询质量
6. 可以组合多个评判模型形成陪审团(Jury)

judges的功能:
1. 使用预设的AI评判模型进行评估
2. 组合多个评判模型以获得更全面的评估
3. 进行AI回答的质量检查
4. 实现多维度的AI评估

相关推荐

暂无评论

暂无评论...