Low-Rank Adaptation of Large Language Models 是微软研究员引入的一项新技术,主要用于处理大模型微调的问题,能够降低微调过程中的计算开销和内存需求。通过冻结预训练模型的权重并在每个 Transformer 块中注入可训练层,LoRA 实现了在减少训练参数数量的同时,保持微调质量与全模型微调相当,并显著提高微调速度。