赤兔量化注意力:专注于量化注意力机制的高效 GPU 实现库,旨在加速长序列数据的处理速度,并且与 Long-Context-Attention 库无缝集成
Decoding Attention是针对大型语言模型(LLM)解码阶段的多头注意力(MHA)优化工具,利用CUDA核心进行推理,解决Flash Attention在LLM推理解码阶段张量核心利用率低的问题。该工具支持更多类型的注意力机制和KV缓存量化优化,有助于提升模型性能。
ULLME是一个统一的框架,旨在通过生成增强学习优化大型语言模型的嵌入,支持双向注意力机制以及多种微调策略,帮助提升模型的性能和效果。
Predibase是一个低代码AI平台,使工程师和数据科学家能够轻松构建、优化和部署最先进的模型,从线性回归到大型语言模型,只需几行代码。它还提供了一种声明式方式,帮助工程师快速调优和服务任何开源机器学习模型或大型语言模型,并在私人云中托管先进基础设施。
收录了63个大语言模型(LLM)相关的面试问题及答案,针对2024年机器学习和数据科学面试提供系统化的准备资料。此项目涵盖了LLMs的基本原理、Transformer架构、注意力机制的详细讲解,以及预训练与微调的核心知识点,附带详细解答和代码示例,旨在帮助求职者全面掌握相关知识。
OneDiff是一个用于加速扩散模型的工具,提供了一种新的免训练、几乎无损的范式,显著提升模型的迭代速度。
该论文打开了自注意力层如何组合输入token动态过程的黑盒子,并揭示了潜在的归纳偏见的性质。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型