AI开源项目

JudgeLM-评估语言模型的高效工具

JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的...

JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
JudgeLM的特点:
1. 支持7B、13B和33B参数规模的训练
2. 系统分析LLM的能力和行为
3. 解决位置偏见、知识偏见和格式偏见
4. 引入交换增强、参考支持和参考剔除等技术
5. 在现有和新基准测试中获得最先进的评判性能

JudgeLM的功能:
1. 用于评估开放式场景中的语言大模型
2. 作为基准测试的评判工具
3. 进行微调以提升语言模型的评判能力
4. 分析模型的偏见和行为

相关推荐

暂无评论

暂无评论...