模型评估工具

大型语言模型的数据、模型和基准集市，为ChatGPT的大众化贡献力量

SciPhi旨在支持大型语言模型(LLMs)的训练和评估，提供了数据生成和模型输出评估两个关键功能，帮助用户高效地生成合成数据，并对模型的性能进行稳健的评估。

LLMBox是一个用于实现大型语言模型的综合库，提供统一的训练流程和全面的模型评估，支持多种训练策略和数据集构建策略，以及高效的数据预处理工具。其可扩展的插件系统使得用户可以根据需求灵活定制，适用于多种大语言模型架构。

EMMA是一个增强型多模态推理基准测试，用于评估大型多模态语言模型在数学、物理、化学和编程等领域的推理能力，帮助研究者发现模型在复杂多模态任务中的局限性。

Haven是一个用于大型语言模型微调和评估的工具，拥有简单的用户界面，可以方便地进行模型微调并基于多种标准进行评估。

该项目旨在评估中文空间语义理解的能力，提供基准数据集和评测工具，帮助研究人员和开发者了解和提升模型在空间语义任务上的表现。