8个关于在多GPU上训练大型语言模型(或任意神经网络)的挑战性难题,旨在让读者亲身体验关键基本原理,并理解内存效率和计算流水线的目标。
一种高效加速大语言模型推理的技术,通过减少内存访问,几乎不损失性能,让模型运行更快更省资源
CAME(Confidence-guided Adaptive Memory Optimization)是一个旨在通过信心引导机制来优化模型内存使用的项目,提升大语言模型的性能。
QMoE是一种用于压缩类似于SwitchTransformer的万亿参数模型的实用解决方案,大大降低了内存需求。它以最小的准确性损失实现了20倍的压缩率,并且可以在经济实惠的硬件上高效运行。
是一种通过减少内存带宽需求来增强语言大模型效率的技术。它无需对预训练或微调进行更改,可以显著减少注意力内存需求,而不会影响准确性。
OneFlow 是一个分布式深度学习框架,旨在使每位算法工程师能够训练超大模型,例如 GPT,克服高训练成本和大模型落地难的问题。它提供易用且高效的动态图和静态图训练接口,支持多种硬件设备,简化模型部署和训练过程。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型