语言模型评估工具

Ottic是一个用于语言模型(LLM)产品的QA平台，旨在帮助技术和非技术团队高效测试基于LLM的应用程序。它提供了端到端的测试管理、全面的LLM评估和实时用户行为监控等功能。

JudgeLM是经过微调的语言大模型，旨在有效、高效地在开放式基准测试中评估语言大模型（LLM），提供系统化的模型能力和行为分析，解决多种偏见问题，并在新旧基准测试中展示出色的评判性能。

FLASK是一个专门用于评估语言模型在语法、语义、推理和生成等任务上表现的工具，旨在提供更准确的评估结果，揭示模型的强项和弱点，并指导语言模型的进一步发展。

ai2-olmo-eval 是一个评估套件，旨在为语言模型在自然语言处理任务上运行评估管道，提供多种评估指标和详细报告，支持扩展和自定义评估。

Fiddler Auditor 是一个用于评估语言模型鲁棒性的工具，旨在测试大规模语言模型（LLM）和自然语言处理（NLP）模型，识别模型中的弱点，并在将其部署到生产之前减轻潜在的对抗结果。

Pod管理工具语言模型评估工具

LEval是一个全面的长文本语言模型评估套件，包含18个长文档任务，涵盖多个领域，需要对长文本进行推理，包括摘要、问答、长对话示例中的上下文学习、主题检索和论文写作辅助等。

AgentBench是一个多维演进基准，评估语言模型作为Agent的能力，包含8个不同环境，专注于LLM在多轮开放式生成场景中的推理和决策能力。