支持ONNX模型量化的开源Python库,提供流行的模型压缩技术,如SmoothQuant和权重量化,适用于Intel硬件和流行的大型语言模型(LLM)。
ONNX神经压缩器的特点:
1. 支持多种模型压缩技术
2. 优化模型以提高推理性能
3. 兼容ONNX格式
4. 支持Intel硬件加速
5. 易于集成和使用
ONNX神经压缩器的功能:
1. 使用SmoothQuant进行模型量化
2. 应用权重量化来减少模型大小
3. 在Intel硬件上优化推理
4. 为大型语言模型(LLM)进行性能调优
相关推荐
暂无评论...