在单个Jupyter Notebook中,实现从零开始训练一个小型GPT风格的解码器语言模型。涵盖了从文本分词、位置编码、自注意力机制到模型训练和推理的完整过程。同时每一步还有详细的讲解。读者可以通过该项目深入理解GPT模型的内部机制、训练流程等。
一份教程,介绍如何从零开始实现一个稀疏 MoE(混合专家)模型,包括模型的基本组成和组件的代码实现。
该项目深入介绍了Transformer模型的背景、关键组件及其实现细节,旨在帮助开发者理解并实现Transformer架构。
Trapper是一个旨在更轻松地在下游任务上训练基于Transformer的模型的NLP库,采用模块化设计,提供一致的API,支持多种下游任务,能够实现最先进的NLP性能。
The Interactive Transformer是一个可视化界面,旨在帮助用户理解和解释Transformer模型。该工具提供了交互式的可视化功能,使用户能够实时操作模型参数,并支持多种Transformer模型,具有直观的用户界面和详细的模型组件及机制解释,是学习和研究Transformer的重要工具。
本笔记包括模型推理、Transformer 模型结构和 lightllm 框架代码分析的详细内容,旨在帮助读者深入理解和应用相关技术。
该项目提供edX和Databricks Academy的大型语言模型课程资料和幻灯片,旨在帮助学生和教师深入理解大型语言模型的基本原理和应用。
Hugging Face生态(Transformers, Datasets, Tokenizers, and Accelerate等)使用教程,旨在帮助用户掌握各种工具和库,提供实践示例和交互式学习体验,适合不同水平的开发者。
Intel Extension for Transformers 是一个开源项目,旨在使客户端 CPU 上的大型语言模型(LLM)微调成为可能,特别是在没有 GPU 的情况下。它支持在 CPU 上进行 QLoRA 微调,适用于笔记本电脑环境,并通过优化的性能提升模型训练效率。该项目与 HuggingFace Transformers 兼容,支持 4 位推理,并利用 Intel 神经压缩器提供丰富的模型压缩技术,如量化、剪枝和蒸馏,显著提高了英特尔平台上的推理效率。此外,它还支持自动化的仅限权重的 INT4 量化流程,兼容多个流行的大语言模型,如 Llama2、Llama 和 GPT-NeoX。
carefree-flow是一个基于OneFlow的深度学习库,旨在简化模型构建与训练过程,提供高效的计算性能和友好的API设计,支持动态计算图,适合开发者快速原型和高性能训练需求。