Ottic是一个用于语言模型(LLM)产品的QA平台,旨在帮助技术和非技术团队高效测试基于LLM的应用程序。它提供了端到端的测试管理、全面的LLM评估和实时用户行为监控等功能。
JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
FLASK是一个专门用于评估语言模型在语法、语义、推理和生成等任务上表现的工具,旨在提供更准确的评估结果,揭示模型的强项和弱点,并指导语言模型的进一步发展。
ai2-olmo-eval 是一个评估套件,旨在为语言模型在自然语言处理任务上运行评估管道,提供多种评估指标和详细报告,支持扩展和自定义评估。
Fiddler Auditor 是一个用于评估语言模型鲁棒性的工具,旨在测试大规模语言模型(LLM)和自然语言处理(NLP)模型,识别模型中的弱点,并在将其部署到生产之前减轻潜在的对抗结果。
LEval是一个全面的长文本语言模型评估套件,包含18个长文档任务,涵盖多个领域,需要对长文本进行推理,包括摘要、问答、长对话示例中的上下文学习、主题检索和论文写作辅助等。
AgentBench是一个多维演进基准,评估语言模型作为Agent的能力,包含8个不同环境,专注于LLM在多轮开放式生成场景中的推理和决策能力。