AI开源项目

nGPT-高效的标准化Transformer模型

nGPT是NVIDIA开发的标准化Transformer模型,基于nanoGPT进行改进,旨在提升训练效率和处理能力。它通过在超球面上的表示学习和标准化过程,实现了对低精度运算的更好鲁棒性,并在...

nGPT是NVIDIA开发的标准化Transformer模型,基于nanoGPT进行改进,旨在提升训练效率和处理能力。它通过在超球面上的表示学习和标准化过程,实现了对低精度运算的更好鲁棒性,并在不同的上下文长度设置中提供了显著的训练加速。
nGPT的特点:
1. 通过在超球面上的表示学习和标准化过程来提升训练效率
2. 在1k、4k和8k上下文长度设置中分别实现了4倍、10倍的训练加速
3. 使用RoPE位置编码和SwiGLU激活函数
4. 对低精度运算具有更好的鲁棒性

nGPT的功能:
1. 用于大规模自然语言处理任务
2. 可在不同的上下文长度设置中进行训练
3. 适用于需要高效训练的深度学习模型

相关推荐

暂无评论

暂无评论...