专为XLA设备优化的LLM推理引擎,针对TPU和GPU进行了吞吐量和内存优化,支持JAX和PyTorch模型,提供完整的服务部署方案。特别适合在Cloud TPU VM上进行在线推理,可用于Gemma等大模型的高效部署。
JetStream的特点:
1. 吞吐量和内存优化
2. 支持JAX和PyTorch模型
3. 完整的服务部署方案
4. 专为Cloud TPU VM在线推理设计
5. 适用于Gemma等大模型的高效部署
JetStream的功能:
1. 在Cloud TPU VM上进行在线推理
2. 部署JAX和PyTorch模型
3. 使用JetStream进行高效的LLM推理
相关推荐
暂无评论...