VPTQ是一种针对大型语言模型的极低比特向量后训练量化方法,旨在通过量化技术提高模型的计算效率和存储效率,同时保持模型性能。该项目适用于各种大型语言模型的优化,能够显著减少模型的内存占用和计算资源需求。