支持ONNX模型量化的开源Python库,提供流行的模型压缩技术,如SmoothQuant和权重量化,适用于Intel硬件和流行的大型语言模型(LLM)。
Tree of Thoughts (ToT) 是一个强大而灵活的算法,能将模型推理能力提升多达70%。该插件式版本允许用户连接自己的模型,体验超智能的推理能力。
ChiRho是一个基于Pyro概率编程语言的实验性语言,旨在支持因果推理,允许用户灵活地构建和推理复杂的因果模型,并与现有的Python生态系统无缝集成。
Stable Fast 是一个超轻量级的推断性能优化库,专为在 NVIDIA GPU 上优化 HuggingFace Diffusers 库的性能而设计。
EasyContext 是一个用于内存优化和训练配方的项目,旨在将语言模型的上下文长度扩展到100万令牌,同时对硬件要求最小化。该项目提供了多种方法来提升模型性能,并兼容现有技术的实现,帮助开发者在资源有限的情况下有效地进行模型训练。
关于如何有效蒸馏大型语言模型的最佳实践实用指南,提供了一系列的最佳实践,帮助工程师和机器学习从业者在生产应用中更高效地蒸馏和使用语言模型。
斯坦福开发的一种遵循指令的 LLaMA 模型,基于 Meta 的 LLaMA 7B 模型进行微调,性能接近 OpenAI 的 text-davinci-003,支持在单个 GPU 或 CPU 上运行。
针对 LiteRT 模型的高级后训练量化工具,旨在帮助开发者优化资源密集型模型(如 GenAI 模型)以在边缘设备上实现最佳性能。该工具支持灵活的后训练量化,专为提高边缘设备的运行效率而设计,适用于需要减少模型大小和计算需求的应用场景。
混合自回归线性核(Mixed Auto-Regressive Linear kernel),一个经过高度优化的FP16xINT4矩阵乘法核,用于LLM推理,可以在批量大小为16-32个token的情况下实现接近理想的约4倍加速。
NyunZero是一个连接用户基础设施的工具,旨在快速适配和压缩视觉模型以及大语言模型(LLMs)。用户可以在几次点击中加速对象检测模型,或获得与硬件兼容的快速量化LLMs,适应用户的数据需求。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型