Decoding Attention是针对大型语言模型(LLM)解码阶段的多头注意力(MHA)优化工具,利用CUDA核心进行推理,解决Flash Attention在LLM推理解码阶段张量核心利用率低的问题。该工具支持更多类型的注意力机制和KV缓存量化优化,有助于提升模型性能。
FlashAttention-2是一种从头编写的算法,可以加快注意力并减少其内存占用,且没有任何近似值。
赤兔量化注意力:专注于量化注意力机制的高效 GPU 实现库,旨在加速长序列数据的处理速度,并且与 Long-Context-Attention 库无缝集成
Intel的LLM加速库,旨在通过使用Intel显卡和带NPU的CPU来加速主流深度学习框架的运行。
收录了63个大语言模型(LLM)相关的面试问题及答案,针对2024年机器学习和数据科学面试提供系统化的准备资料。此项目涵盖了LLMs的基本原理、Transformer架构、注意力机制的详细讲解,以及预训练与微调的核心知识点,附带详细解答和代码示例,旨在帮助求职者全面掌握相关知识。
一个为HunyuanVideo模型开发的ComfyUI封装节点,可在ComfyUI环境中进行视频生成。支持flash_attn和sageattn两种注意力机制,内存占用取决于分辨率和帧数。即使在低分辨率下也能生成质量不错的视频效果。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型