是一种通过减少内存带宽需求来增强语言大模型效率的技术。它无需对预训练或微调进行更改,可以显著减少注意力内存需求,而不会影响准确性。
该论文提出了一种训练语言模型的方法,通过同时预测多个未来Token来提高样本效率,并在多个生成基准上实现了显著的性能提升。
YaRN是一个高效的上下文窗口扩展工具,旨在提高大型语言模型的上下文处理能力。
Unsloth Zoo是一个提供用于Unsloth的实用工具库,旨在支持免费微调和加速大型语言模型,帮助开发者更高效地使用和优化语言模型。
智能优化版Llama.cpp:基于原版Llama.cpp的克隆项目,它增加了最先进的量化技术,并针对CPU性能进行了改进,使得在处理大型语言模型时更加高效
用Go语言编写的云原生AI网关,作为OpenAI的代理服务,可以创建具有速率限制、费用限制和生存时间限制的API密钥,实现细粒度的访问控制,支持多个大型语言模型,并简化LLM(Large Language Model)的运维操作。
该项目汇集了精选的扩散模型推理论文,涵盖了多种技术,包括采样、缓存以及多GPU支持,为研究者和开发者提供了丰富的学习和应用资源。
8个关于在多GPU上训练大型语言模型(或任意神经网络)的挑战性难题,旨在让读者亲身体验关键基本原理,并理解内存效率和计算流水线的目标。
哈佛大学出品的新论文,旨在提升LLM在TrucefulQA数据集上的正确率。该项目通过改进模型的输出和修正机制,使得大型语言模型在处理特定数据集时表现更佳。
高级文本生成工具,旨在提高语言模型输出的质量和多样性,通过动态调整和回溯机制来减少指定的过度使用词汇和短语(即 'GPT slop')的生成概率
该项目演示了如何利用大模型进行蒸馏来构建小模型,从而在某些领域实现比大型模型更强的推理效果。
VL-PET是通过粒度控制实现视觉与语言模型的参数高效调优,旨在提升模型在特定任务上的表现。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型