nanotron是一个开源工具,旨在简化大型语言模型的训练过程,提供了一种高效的3D并行训练方法,从而更好地利用计算资源。
gigaGPT 是一个训练具有数百亿参数的大型语言模型的最简单实现,代码量仅有500多行,灵感来自于Andrej Karpathy的nanoGPT,专为Cerebras硬件进行优化,能够在大规模集群上运行,如同GPT-3大小的模型。
LLMBox是一个用于实现大型语言模型的综合库,提供统一的训练流程和全面的模型评估,支持多种训练策略和数据集构建策略,以及高效的数据预处理工具。其可扩展的插件系统使得用户可以根据需求灵活定制,适用于多种大语言模型架构。
GPT Core用于创建和训练先进的大型语言模型(LLM),着重强调了其快速性能,可以在仅20分钟消费级GeForce RTX™ 4090上将自定义的1.23亿参数LLM预训练到约3.5的验证损失。
JAXSeq建立在Huggingface的Transformers库之上,可用JAX训练非常大的语言模型,目前支持GPT2,GPTJ,T5和OPT模型。它结合了JAX的高效计算能力与Huggingface的丰富模型资源,提供了一个灵活且高效的训练平台,适用于不同规模和类型的语言模型的训练与微调。