AI开源项目

YaRN-高效的上下文窗口扩展工具

YaRN是一个高效的上下文窗口扩展工具,旨在提高大型语言模型的上下文处理能力。

YaRN是一个高效的上下文窗口扩展工具,旨在提高大型语言模型的上下文处理能力。
YaRN的特点:
1. 计算效率更高,所需词元数减少10倍
2. 训练步骤减少2.5倍
3. 能够将模型有效地利用和外推至超出原始预训练上下文长度
4. 超越微调数据集有限上下文的能力
5. 适用于7B和13B模型,支持上下文窗口分别为64k和128k

YaRN的功能:
1. 用于扩展大型语言模型的上下文窗口
2. 在微调大型语言模型时提高训练效率
3. 处理超出原始训练数据上下文的任务
4. 支持高效的模型推理和应用

相关推荐

暂无评论

暂无评论...