一款用于评估和红队任何大型语言模型(LLM)应用的简单且模块化工具,由AI验证基金会开发,集成了基准测试和红队测试,帮助AI开发者、合规团队和AI系统所有者评估LLMs和LLM应用。
一个用于评估大语言模型在数字猜谜游戏中表现的测试框架,支持多个LLM提供商,提供全面的性能指标分析和可视化结果,测试模型的推理能力和上下文记忆能力,包含成功率、格式合规性和效率等多维度评估
LightEval是一个轻量级的LLM评估套件,Hugging Face在内部使用,并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。
llm-colosseum 是一种评估大型语言模型 (LLM) 质量的新方法,通过模拟《Street Fighter 3》中的战斗表现作为基准,帮助研究人员和开发者了解和分析 LLM 的决策能力和适应性。该项目强调实时游戏中的快速决策、智能思考、适应性调整和整体弹性。
该项目旨在探索LLM评估与人工标注之间的相关性,以期能够实现廉价评估与与人工评估结果的高相关性。通过分析不同的LLM评估基准,该项目提供了有效的评估方法,并支持多种LLM模型的评估。
llm-numbers是一个每个LLM开发人员都应该了解的工具,提供关键的统计数据和指标,帮助开发者深入理解模型性能。它支持多种语言模型的评估,并易于集成到现有的机器学习工作流中。此外,llm-numbers还提供可视化工具,以便展示模型数据,让开发者更直观地分析结果。
集合了基于大型语言模型(LLM)评估方法的综合调研项目,旨在为开发者、研究者和实践者提供如何有效利用LLM作为评估工具的资源。