高效LLM推理加速助手:通过并行提示技术提升大型语言模型的推理效率,适用于边缘和移动环境,具有正交优化、内存效率和训练效率三大特点,显著提升速度并保持低内存开销
QMoE是一种用于压缩类似于SwitchTransformer的万亿参数模型的实用解决方案,大大降低了内存需求。它以最小的准确性损失实现了20倍的压缩率,并且可以在经济实惠的硬件上高效运行。
一个用Rust语言编写的极简语言模型(LLM)推理工具,能够在没有机器学习库的情况下,在CPU上进行完整的语言模型推理,支持多种大型语言模型并具备多模态功能。
一个使客户端 CPU 上的 LLM 微调成为可能的开源项目,特别是在没有 GPU 的情况下。
One-GLM是基于GLM架构的项目,移植到了使用OneFlow后端进行训练,能够大幅提升性能和显存利用率。
这是一个开源实现,旨在为Meta的Llama3.2-Vision系列模型提供微调功能,支持高效训练,兼容Liger-Kernel,提升模型性能和训练效率。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型