NyunZero是一个连接用户基础设施的工具,旨在快速适配和压缩视觉模型以及大语言模型(LLMs)。用户可以在几次点击中加速对象检测模型,或获得与硬件兼容的快速量化LLMs,适应用户的数据需求。
DeepCompressor是一个专为大型语言模型和扩散模型设计的模型压缩工具箱,支持多种数据类型的假量化,旨在提高模型的推理速度和效率。
NVIDIA官方推出的库,用于压缩transformer模型中的KV缓存,最大可节省约35%的内存空间。kvpress通过多种缓存修剪方法,使大型语言模型的缓存压缩变得简单,降低内存使用并提高解码速度。
LLMPruner是一款专为大语言模型设计的裁剪工具,旨在优化模型性能并减少其参数量。它支持多种模型架构,并提供可视化工具,方便用户了解模型结构和裁剪效果,易于与现有机器学习工作流集成。
由知乎和ModelBest公司开发的高性能LLM推理引擎,针对PCIe GPU优化,支持Llama等大模型变体。
VL-PET是通过粒度控制实现视觉与语言模型的参数高效调优,旨在提升模型在特定任务上的表现。
FastEdit 是一个高效的工具,可以在10秒内快速编辑大型语言模型,支持多种模型,并通过简单的命令向模型注入定制知识,极大地提升了模型的灵活性和实用性。
NOLA项目旨在通过随机基的线性组合技术对LoRA模型进行压缩,从而提高模型的效率并减少其体积,非常适合在需要降低模型大小的场景中应用。
CompressGPT 是一个提示压缩器,可以为大多数基于 LangChain 工具的提示减少约70% 的Token,只需更改一行代码,帮助用户在文本生成和处理时大幅降低成本和提高效率。
支持ONNX模型量化的开源Python库,提供流行的模型压缩技术,如SmoothQuant和权重量化,适用于Intel硬件和流行的大型语言模型(LLM)。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型