小型语言模型综述资源集:旨在全面调研小型语言模型的技术、应用、效率以及与大型语言模型的协作和可信度
OpenCompass是一个大型语言模型评测平台,支持20多种模型和50多个数据集,能够通过高效的分布式评估技术进行快速全面的基准测试。
LLMEVAL-2 是一款专为评测中文大语言模型性能而设计的工具,支持多种评测指标和方法,提供易用的接口和文档,集成了多种预训练模型,并允许用户自定义评测任务。
pyllms是一个用于与大型语言模型交互的Python库,提供了对多种模型的统一接口,简化了模型的调用和管理过程,同时支持模型的性能评估和比较。