基准测试 | AI-magic

GradientJ旨在使NLP应用更易获取，提供创建、微调和管理NLP应用的综合解决方案，充分利用大语言模型的能力。

Bias-Bench是一个实证调查，旨在评估针对预训练语言模型的去偏见技术的有效性。它通过比较不同的去偏见方法，帮助研究人员理解这些技术在模型训练中的作用。该项目为研究人员提供了一个标准化的平台，以便对去偏见技术进行基准测试和性能评估。

TAG-Bench是一个用于回答数据库上的自然语言问题的项目，通过Table-Augmented Generation（TAG）模型，探索语言模型与数据库之间的广泛交互，提供首个基准测试研究TAG问题，并验证标准方法在此类查询上的挑战性。

一个基准测试工具，用于研究和评估开源大型语言模型在软件工具操作方面的能力，提供了多样化的软件工具和易于使用的基础设施，可以直接评估每个模型的执行成功率。

一个全面的移动端和PC端智能代理相关资源集合，包含最新论文、数据集和基准测试。收录了各类移动端智能代理系统的训练方法、输入类型、模型架构等详细对比，以及主流数据集的详细信息统计。