Optimum-NVIDIA将NVIDIA平台与Hugging Face结合,提供卓越的推理性能,通过简单的代码修改,使LLaMA 2模型达到每秒1,200个token的处理速度,比其他框架快28倍。
一款基于苹果MLX框架的本地推理服务器,专为Apple Silicon芯片优化设计。支持OpenAI兼容的API接口,实现文本对话、语音转换、图像生成等AI能力。
Kokoro-FastAPI是一个基于Docker的FastAPI包裹,用于Kokoro-82M文本到语音模型的部署,支持NVIDIA GPU和CPU ONNX加速推理,具备自动分割和拼接功能,旨在提供高效、灵活的语音合成服务。
一种提升LLM性能的全新方法,能够把单一的LLM变身为全能的指挥家,通过高层元提示指令拆分复杂任务并分配给专家模型。
从零开始构建自己的大型语言模型,提供详细教程和代码实现,覆盖编码、预训练和微调过程,适用于对自然语言处理和人工智能领域感兴趣的开发者和研究者