fairseq是一个用于序列建模的开源工具包,支持多种自然语言处理和语音处理任务。
BiPE (Bilevel Positional Encoding) 旨在通过双层位置编码技术,提高模型在处理不同输入长度时的预测能力,尤其适用于序列建模任务。该项目通过增强位置编码的表达力,从而改善模型在长文本和变长输入上的性能。
LongRoPE项目旨在将大型语言模型的上下文窗口扩展至超过200万Tokens,显著提升长文本处理能力,同时保持原始短上下文窗口的性能。它通过引入有效的搜索识别和位置插值,以及采用渐进扩展策略,在256k训练长度内仅需1k微调步骤,从而实现高效的模型训练与优化。
一种 LLM 代理系统,旨在解决大型语言模型在处理长输入时的限制,通过有效上下文长度的显著增加来提升阅读理解能力。
Stick-breaking Attention 是一种基于 Triton 的变长序列注意力机制实现,旨在通过优化计算方式提升在 GPU 上的性能,适合多种深度学习任务,易于与现有框架集成。
WaveCoder是一个广泛且多才的项目,专注于增强指令调优和精炼数据生成,采用经过精心调优的代码语言模型和生成器-判别器框架,从开源代码中生成高质量、非重复的指令数据,显著提升大型语言模型在与代码相关任务中的表现和泛化能力。
CAME(Confidence-guided Adaptive Memory Optimization)是一个旨在通过信心引导机制来优化模型内存使用的项目,提升大语言模型的性能。