smolGPT是一个从零开始训练迷你大语言模型的工具,采用纯PyTorch实现,代码简洁无冗余,支持高效训练、混合精度和梯度累积。预训练模型仅需18.5小时,适合快速上手。项目专为教育目的设计,帮助用户理解大语言模型的训练过程,并适用于小规模文本生成任务。此外,smolGPT还支持flash attention和现代采样技术,可用于研究和实验,快速验证模型效果。