QMoE是一种用于压缩类似于SwitchTransformer的万亿参数模型的实用解决方案,大大降低了内存需求。它以最小的准确性损失实现了20倍的压缩率,并且可以在经济实惠的硬件上高效运行。
这是一个关于出色LLM推理的小集合,包含文献、博客和文档以及代码,支持TensorRT-LLM、流式LLM、SmoothQuant、WINT8/4、连续批处理、FlashAttention、PagedAttention等技术。
高效LLM推理加速助手:通过并行提示技术提升大型语言模型的推理效率,适用于边缘和移动环境,具有正交优化、内存效率和训练效率三大特点,显著提升速度并保持低内存开销
使用C++以及CUDA加速神经网络样例,主要实现了矩阵加法和矩阵乘法,提供高效的计算能力,适用于深度学习中的高性能计算需求。
8个关于在多GPU上训练大型语言模型(或任意神经网络)的挑战性难题,旨在让读者亲身体验关键基本原理,并理解内存效率和计算流水线的目标。
这个开源项目的功能是对类似 #ChatGPT# 的模型进行简单、快速且经济实惠的 RLHF 训练。
本笔记包括模型推理、Transformer 模型结构和 lightllm 框架代码分析的详细内容,旨在帮助读者深入理解和应用相关技术。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型