该项目证明可以将 LLMs 的工作负载分散到多个设备上并实现显著的加速,支持在低功耗设备上运行,兼容Llama 2 70B模型。
建立在HuggingFace模型和PyTorch Fully Sharded Data Parallelism基础上的训练套件,旨在优化吞吐量,简化在资源受限环境中训练中型模型的分布式方案设置工作流程,尤其适用于学术集群。
Inferflow是一个高效且高度可配置的大型语言模型(LLM)推理引擎,支持多种Transformer模型,用户无需编写源代码,只需通过简单修改配置文件即可进行服务,旨在提供高效的推理性能,适应不同需求。
一种提升LLM性能的全新方法,能够把单一的LLM变身为全能的指挥家,通过高层元提示指令拆分复杂任务并分配给专家模型。
Hugging Face 实现并开源的推理阶段计算扩展研究,通过动态计算策略提升小型语言模型的性能。