该项目旨在实现稀疏和稳健的预训练语言模型,以提高语言理解的能力和效率。
Mask-tuning是一种训练方法,通过将训练目标集成到微调过程中,旨在提升预训练语言模型在特定任务上的表现和泛化能力,尤其是在未见过的数据上。
FastLLM是一个动态策略选择的深度学习模型训练代码库,集成了Deepspeed、Megatron、FlashAttention、CudaFusionKernel和编译器技术,旨在优化大规模语言模型的训练效率,提供更加灵活和高效的训练方案。
是参数高效的语言模型微调中最受欢迎的方法之一。该项目探讨了以参数高效的方式进行语言模型的预训练,并引入了一种名为ReLoRA的方法,利用低秩更新来训练高秩网络。
专为大型语言模型(LLM)训练优化的类,集成了多种高效训练技术,旨在提升训练效率和内存使用效率。
该研究定义了一种风格的语言模型代理,该代理具有推理和运用外部知识的能力,通过对先前轨迹的迭代训练来提升其性能。
flash-attention是一个基于FlashAttention优化的Transformer实现,其训练速度在GPT2和GPT3上比Huggingface的实现快3-5倍,显著提升了训练效率,同时优化了内存使用,并支持多种硬件加速。
CSTS是一个专为中文设计的自然语言推理与语义相似度数据集,包含多种推理场景,提供丰富的标注数据,旨在支持机器学习和深度学习模型的训练,帮助提升中文文本的理解和处理能力。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型