SuperCLUE-Llama2-Chinese是基于SuperCLUE的OPEN基准,为Llama2开源模型提供全方位的中文评估,支持多种评测指标,致力于推动中文自然语言处理的发展。
这是国内第一个真正的开源、可下载、可运行的 LLaMA2 模型,提供中文版 Llama2模型及中英文 SFT 数据集,兼容适配所有针对原版 llama-2-chat 模型的优化。
该研究开发了一种简化的自我训练方法,称为ReST^EM,该方法使用期望最大化(expectation maximization)来微调语言大模型(LLM),表现优于仅依赖人类数据进行微调的策略。
一个用于促进和支持链式思考的工具库,旨在提高模型推理能力和理解力。
Promptfoo是一个专门为测试和增强语言模型数学(LLM)提示而设计的库,提供强大的工具来评估提示质量和模型输出,从而提升结果。
Residual Prompt Tuning是一种通过残差重参数化方法来改善提示调优性能的技术,旨在提高自然语言处理任务中的效果,优化预训练语言模型的表现。
一个用于文档级翻译的项目,基于大型语言模型(LLMs)进行实现,并进行了一系列实验以评估其性能。
该论文探讨了语言模型在反事实任务中的能力和限制,揭示了它们在抽象推理方面的表现及其依赖的任务解决程序。
RestGPT 是基于大型语言模型的自主代理的代码实现,通过 RESTful API 控制现实世界的应用程序。它旨在将语言模型与 API 连接起来,解决与规划、API 调用和响应解析相关的挑战。
一个包含多个样本的基准测试项目,用于大语言模型的测试和评估,旨在帮助研究者和开发者了解模型的性能表现。该项目提供多种语言的测试样本,支持自定义测试用例,易于与现有AI项目集成,方便进行系统性评估。
ai2-olmo-eval 是一个评估套件,旨在为语言模型在自然语言处理任务上运行评估管道,提供多种评估指标和详细报告,支持扩展和自定义评估。
截至目前,国内已经有了个 188 大语言模型,LLMs-In-China 收录了中国境内的多种大语言模型信息,提供模型的基本参数和性能指标,包含模型的使用案例和应用场景,并支持用户提交新的模型信息。