LLM应用 | AI-magic

nanotron是一个开源工具，旨在简化大型语言模型的训练过程，提供了一种高效的3D并行训练方法，从而更好地利用计算资源。

gigaGPT 是一个训练具有数百亿参数的大型语言模型的最简单实现，代码量仅有500多行，灵感来自于Andrej Karpathy的nanoGPT，专为Cerebras硬件进行优化，能够在大规模集群上运行，如同GPT-3大小的模型。

LLM应用 Python代码执行Agent

LLMBox是一个用于实现大型语言模型的综合库，提供统一的训练流程和全面的模型评估，支持多种训练策略和数据集构建策略，以及高效的数据预处理工具。其可扩展的插件系统使得用户可以根据需求灵活定制，适用于多种大语言模型架构。

GPT Core用于创建和训练先进的大型语言模型(LLM)，着重强调了其快速性能，可以在仅20分钟消费级GeForce RTX™ 4090上将自定义的1.23亿参数LLM预训练到约3.5的验证损失。

JAXSeq建立在Huggingface的Transformers库之上，可用JAX训练非常大的语言模型，目前支持GPT2，GPTJ，T5和OPT模型。它结合了JAX的高效计算能力与Huggingface的丰富模型资源，提供了一个灵活且高效的训练平台，适用于不同规模和类型的语言模型的训练与微调。

LLM应用代码库 AI 助手