LongLoRA-长上下文大型语言模型的高效微调方法
一种超高效的微调方法,旨在扩展预训练大型语言模型 (LLM) 的上下文大小,而无需巨大的计算成本。它使用稀疏局部注意力替代密集全局注意力,显著节省计算量,同时在训练过程中只需两行代码即可实现,推理时可选。结合可训练的嵌入和归一化,增强LoRA的有效性,并在7B/13B到70B的LLaMA2模型上表现出强大的性能。此外,LongLoRA兼容FlashAttention-2等现有技术,并创建了LongQA数据集用于监督微调,包含超过3000个长上下文问答对。