NVIDIA官方推出的库,用于压缩transformer模型中的KV缓存,最大可节省约35%的内存空间。kvpress通过多种缓存修剪方法,使大型语言模型的缓存压缩变得简单,降低内存使用并提高解码速度。