一个基准测试工具,用于研究和评估开源大型语言模型在软件工具操作方面的能力,提供了多样化的软件工具和易于使用的基础设施,可以直接评估每个模型的执行成功率。
Inspect是一个用于评估大型语言模型性能的框架,提供多种评估指标与方法,支持不同类型的模型,易于与现有机器学习工作流集成,同时支持可视化和结果分析。
一个全面的移动端和PC端智能代理相关资源集合,包含最新论文、数据集和基准测试。收录了各类移动端智能代理系统的训练方法、输入类型、模型架构等详细对比,以及主流数据集的详细信息统计。
一款用于评估和红队任何大型语言模型(LLM)应用的简单且模块化工具,由AI验证基金会开发,集成了基准测试和红队测试,帮助AI开发者、合规团队和AI系统所有者评估LLMs和LLM应用。
一个轻量框架,用于开发、调试和监控大规模大语言模型(LLM)和Agent驱动的应用。它提供了易用的工具,帮助开发者快速构建和优化语言模型应用。
LLM4SE是一个专为软件工程设计的大型语言模型,能够理解和生成多种编程语言的代码,自动化代码审查与重构,智能化错误检测与调试,并能自动生成项目文档。同时,LLM4SE可以与多种开发工具和环境集成,提升开发效率。
Tonic Validate Metrics 是一个开源的评估指标包,旨在为生成模型的输出提供多种评估指标,支持模型性能对比,易于集成到机器学习工作流,并兼容多种数据格式和输入类型。
该项目探讨了如何将大型语言模型用于各种应用中的工具创建。
Math-Verify是一个强大的数学表达式评估系统,专为评估大型语言模型在数学任务中的输出而设计。它能更准确地评估模型的表现,避免因格式或解析问题导致的误判。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型