专为XLA设备优化的LLM推理引擎,针对TPU和GPU进行了吞吐量和内存优化,支持JAX和PyTorch模型,提供完整的服务部署方案。特别适合在Cloud TPU VM上进行在线推理,可用于Gemma等大模型的高效部署。
Inferflow是一个高效且高度可配置的大型语言模型(LLM)推理引擎,支持多种Transformer模型,用户无需编写源代码,只需通过简单修改配置文件即可进行服务,旨在提供高效的推理性能,适应不同需求。