Inspect是一个用于评估大型语言模型性能的框架,提供多种评估指标与方法,支持不同类型的模型,易于与现有机器学习工作流集成,同时支持可视化和结果分析。
用于评估视觉语言模型在多样化基准测试中的鲁棒性的Python库,提供60种VLM模型和40种评估基准的全面工具和脚本,支持大规模模型和大规模训练样本,简化视觉语言模型的评估过程
一个基准测试工具,用于研究和评估开源大型语言模型在软件工具操作方面的能力,提供了多样化的软件工具和易于使用的基础设施,可以直接评估每个模型的执行成功率。
旨在复制Anthropic的Crosscoders,用于模型差异分析,通过训练模型对比不同版本间的细微差别。该项目提供了易于使用的接口和工具,可以帮助研究人员和开发者深入理解模型的变化。
LightEval是一个轻量级的LLM评估套件,Hugging Face在内部使用,并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。
该论文探讨了语言模型在反事实任务中的能力和限制,揭示了它们在抽象推理方面的表现及其依赖的任务解决程序。
SciPhi旨在支持大型语言模型(LLMs)的训练和评估,提供了数据生成和模型输出评估两个关键功能,帮助用户高效地生成合成数据,并对模型的性能进行稳健的评估。
JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
OpenFactCheck是一个开源的事实核查演示,专为大型语言模型(LLMs)设计,旨在整合各种事实核查工具,提供全面的事实核查流程。该项目支持多种核查工具的整合,使得用户能够高效地进行事实核查,并且由于其开源特性,开发者可以根据需求进行扩展和定制。
ai2-olmo-eval 是一个评估套件,旨在为语言模型在自然语言处理任务上运行评估管道,提供多种评估指标和详细报告,支持扩展和自定义评估。
QLLM是一个通用的大语言模型量化工具箱,支持2-8位的LLM量化,用户可以轻松使用GPTQ和AWQ方法进行模型量化和压缩。该工具箱提供了易于使用的工具和接口,适用于多种大语言模型,旨在帮助用户在不同精度下评估模型性能。
ml-calibration是一个用于测量校准和绘制可靠性图表的工具包,提供了可视化方法来评估模型的校准程度,并生成可靠性图表以帮助分析模型的可靠性。该工具包支持多种校准方法的比较,易于集成到现有的机器学习工作流中。
Effy AI是一款性能管理软件,提供快速的360度员工评审体验,配备现成模板和AI生成报告,特别适合初创公司和偶尔进行评审的组织。
Imagen是一个文本到图像的扩散模型,具有极高的真实感,利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数,并在样本质量和图像-文本对齐方面被人类评审者优先选择。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型