AI开源项目

Mooncake-以KVCache为核心的高效LLM服务平台

月之暗面Kimi AI的服务平台,以KVCache为中心的LLM服务架构,支持高效的请求处理和资源利用。

月之暗面Kimi AI的服务平台,以KVCache为中心的LLM服务架构,支持高效的请求处理和资源利用。
Mooncake的特点:
1. 以KVCache为中心的解耦架构
2. 分离的预填充集群与解码集群
3. 充分利用GPU集群中的CPU、DRAM和SSD资源
4. 基于预测的早期拒绝策略
5. 在长上下文场景中表现出色
6. 高达525%的吞吐量提升,遵守服务级别目标(SLO)
7. 在实际工作负载下处理75%以上的请求

Mooncake的功能:
1. 部署KVCache服务以优化LLM请求处理
2. 利用Mooncake的调度程序实现高效的资源分配
3. 应用早期拒绝策略以应对超载场景
4. 进行性能测试以验证吞吐量提升
5. 集成到现有的AI服务架构中

相关推荐

暂无评论

暂无评论...