Slack应用

一种超高效的微调方法，旨在扩展预训练大型语言模型 (LLM) 的上下文大小，而无需巨大的计算成本。它使用稀疏局部注意力替代密集全局注意力，显著节省计算量，同时在训练过程中只需两行代码即可实现，推理时可选。结合可训练的嵌入和归一化，增强LoRA的有效性，并在7B/13B到70B的LLaMA2模型上表现出强大的性能。此外，LongLoRA兼容FlashAttention-2等现有技术，并创建了LongQA数据集用于监督微调，包含超过3000个长上下文问答对。