LightEval是一个轻量级的LLM评估套件,Hugging Face在内部使用,并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。
Amazon Foundation Model Evaluations Library,用于评估大型语言模型(LLMs),帮助选择最适合您用例的LLM。该库提供多种评估功能,覆盖开放式生成、文本摘要、问答和分类任务,旨在帮助用户全面了解不同模型在特定任务上的表现。
LLMArena是一个易于使用的工具,可以帮助用户并排比较多个大型语言模型(LLM),并美观地分享这些比较。用户可以选择2到10个LLM进行对比,生成直观的比较结果。
ProbSem是一个利用大型语言模型(LLMs)为查询字符串分配上下文条件概率分布的框架,默认支持所有OpenAI引擎和HuggingFace CausalLM模型。
LLMDrift是一个项目,旨在研究大型语言模型(如GPT-3.5和GPT-4)的性能漂移,特别关注其性能可能随时间下降的趋势及其影响。
OpenFactCheck是一个开源的事实核查演示,专为大型语言模型(LLMs)设计,旨在整合各种事实核查工具,提供全面的事实核查流程。该项目支持多种核查工具的整合,使得用户能够高效地进行事实核查,并且由于其开源特性,开发者可以根据需求进行扩展和定制。
Inspect是一个用于评估大型语言模型性能的框架,提供多种评估指标与方法,支持不同类型的模型,易于与现有机器学习工作流集成,同时支持可视化和结果分析。
VLABench是一个大规模基准测试平台,专为公平评估视觉语言代理、具身代理和视觉语言模型而设计,提供长视野推理任务的支持,适用于多种任务和场景,旨在为研究人员和开发者提供标准化的测试环境。
一个轻量框架,用于开发、调试和监控大规模大语言模型(LLM)和Agent驱动的应用。它提供了易用的工具,帮助开发者快速构建和优化语言模型应用。
ConsoleX是一个综合性的LLM实验平台,结合了聊天接口、LLM API实验和批量评估,支持所有主流LLM,并提供比官方实验室更多的增强功能。
Fiddler Auditor 是一个用于评估语言模型鲁棒性的工具,旨在测试大规模语言模型(LLM)和自然语言处理(NLP)模型,识别模型中的弱点,并在将其部署到生产之前减轻潜在的对抗结果。
医疗大语言模型综合评测框架,特点包括大规模综合性能评测、深入细分的多维度场景评估、创新性的开放式评估指标和自动化评估模型
LLMonitor是一个开源的监控与评估工具,专为AI开发者设计,旨在通过日志查询和分析提升应用的质量。它为基于大型语言模型的应用提供可观察性和日志记录功能,帮助开发者优化和调试复杂的AI代理和聊天机器人。
Mask-tuning是一种训练方法,通过将训练目标集成到微调过程中,旨在提升预训练语言模型在特定任务上的表现和泛化能力,尤其是在未见过的数据上。
iGSM是一个用于生成小学数学问题数据集的工具,能够创建不同难度级别的数学问题,并评估解决方案的正确性。该工具旨在帮助研究人员分析语言模型在数学推理方面的能力,同时创建可用于教育和研究的数据集。
本综述旨在提供关于利用大型语言模型进行NLG评估的全面概述,提出了一个系统的分析框架,以理解和比较这些方法。通过讨论未解决的挑战,包括偏见、鲁棒性、领域特异性和统一评估,本综述旨在为研究人员提供洞见,并倡导更公平和先进的NLG评估技术。