gpt-fast 是一种简约的、仅限 PyTorch 的解码实现,加载了最佳实践:int8/int4 量化、推测解码、张量并行性等,显著提高 LLM 操作系统的性能。
Cemu是一个用于模拟任天堂Wii U游戏的开源项目,支持C++、OpenGL和Vulkan,用户界面使用wxWidgets,旨在为用户提供高效的游戏体验。
EETQ是针对transformer模型的量化工具,使用Flash-Attention V2优化attention的推理性能,简单易用,只需一行代码即可适配您的PyTorch模型。
智能优化版Llama.cpp:基于原版Llama.cpp的克隆项目,它增加了最先进的量化技术,并针对CPU性能进行了改进,使得在处理大型语言模型时更加高效
CogVideoX Factory 是一个在 24GB GPU 内存下对 Cog 系列视频模型进行微调的项目,旨在实现高效的自定义视频生成,支持多种分辨率,提供内存优化的微调脚本和基于 TorchAO 和 DeepSpeed 的训练方式,适用于多种深度学习工作流。
FLUXSwift是FLUX.1模型的Swift实现,利用mlx-swift库在苹果硅芯片上进行GPU加速,旨在高效生成图像。
NOLA项目旨在通过随机基的线性组合技术对LoRA模型进行压缩,从而提高模型的效率并减少其体积,非常适合在需要降低模型大小的场景中应用。
AI2开源的OLMo语言模型核心构建模块,基于PyTorch实现,提供了完整的模型训练和优化组件,支持多种规模模型(1B-13B)训练,包含flash attention、float8训练等高级特性
该研究调查了小型Transformer如何使用下一个token预测目标有效地学习算术运算和基本函数,包括加法、乘法、平方根等。
QLLM是一个通用的大语言模型量化工具箱,支持2-8位的LLM量化,用户可以轻松使用GPTQ和AWQ方法进行模型量化和压缩。该工具箱提供了易于使用的工具和接口,适用于多种大语言模型,旨在帮助用户在不同精度下评估模型性能。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型