ModuleFormer是一种基于MoE(Mixture of Experts)的架构,旨在提高大型语言模型的计算效率和可扩展性。其设计允许通过稀疏激活专家子集来实现与密集型语言模型相同的性能,同时在吞吐量上超过两倍。此外,它对灾难性遗忘具有免疫力,能够通过引入新专家来学习新知识,并且支持对特定微调任务的专家进行专注,便于轻量级部署。