nGPT是NVIDIA开发的标准化Transformer模型,基于nanoGPT进行改进,旨在提升训练效率和处理能力。它通过在超球面上的表示学习和标准化过程,实现了对低精度运算的更好鲁棒性,并在不同的上下文长度设置中提供了显著的训练加速。
是参数高效的语言模型微调中最受欢迎的方法之一。该项目探讨了以参数高效的方式进行语言模型的预训练,并引入了一种名为ReLoRA的方法,利用低秩更新来训练高秩网络。
在MiniGPT4的基础上对齐了Qwen-Chat语言模型,使用高质量的指令微调数据,通过单阶段预训练达到了很好的效果。
Fast-LLM是一个开源库,旨在加速大型语言模型的训练。它具有快速的训练速度、良好的可扩展性,支持多种模型架构,并且提供易于使用的接口,适合研究和工业应用。
实现了用Numpy库构建全连接神经网络和基于注意机制的transformer模型的最小化版本,代码行数少于650行,是一份值得参考的简化神经网络实现案例
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型