CSTS是一个专为中文设计的自然语言推理与语义相似度数据集,包含多种推理场景,提供丰富的标注数据,旨在支持机器学习和深度学习模型的训练,帮助提升中文文本的理解和处理能力。
本项目基于Meta发布的可商用大模型Llama-2开发,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。