这是一个新的简单替代方案,基于计算输入激活的权重大小和范数之间的逐元素乘积。
Llumnix是一个针对大型语言模型(LLM)多实例服务的高效且易于使用的请求调度层,支持动态调度、内存碎片化减少、加载均衡优化,并且易于与现有的多实例部署平台集成。
本文提出了一种解决语言大模型中问题的方法,当相关信息出现在输入上下文的开头或结尾时,性能通常最高,而当模型必须在中访问相关信息时,性能会显著下降。
该项目探讨了通过量化、剪枝和蒸馏等手段来降低改造和使用大语言模型(LLM)的成本。
Dolomite Engine是一款用于预训练和微调大型语言模型的超优化库,集成了多项关键创新,包括模型架构、微调方法和系统优化。它旨在提高大型语言模型的训练效率和效果,支持多种模型架构,优化微调过程,并提供系统性能的显著提升。
FastLLM是一个动态策略选择的深度学习模型训练代码库,集成了Deepspeed、Megatron、FlashAttention、CudaFusionKernel和编译器技术,旨在优化大规模语言模型的训练效率,提供更加灵活和高效的训练方案。
NVIDIA官方推出的库,用于压缩transformer模型中的KV缓存,最大可节省约35%的内存空间。kvpress通过多种缓存修剪方法,使大型语言模型的缓存压缩变得简单,降低内存使用并提高解码速度。
用Go语言编写的云原生AI网关,作为OpenAI的代理服务,可以创建具有速率限制、费用限制和生存时间限制的API密钥,实现细粒度的访问控制,支持多个大型语言模型,并简化LLM(Large Language Model)的运维操作。
基于ONNX Runtime的Java的Stable Deffusion管线,具有GUI界面和负面文本支持,展示了如何在Java中使用ONNX Runtime进行推理,并提供了性能优化的最佳实践
Mamba是一种硬件感知的并行算法,旨在解决在语言处理任务中处理长序列时的低效问题。通过实现,Mamba实现了快速推理、线性可扩展性,并在性能上与更大的Transformer模型相媲美。
一个用于非因果建模的双向线性注意力实现项目,通过Triton优化模型性能,特别适合需要高效处理大量数据的AI应用
LangSmith是一个旨在帮助开发者缩小原型与生产之间差距的平台,专为构建和迭代能够利用大型语言模型(LLMs)的产品而设计,既能发挥其强大能力,又能应对其复杂性。
MiniRBT (中文小型预训练模型) 是由iFLYTEK开发的一个小型中文预训练模型,旨在提供高效的自然语言处理能力。
mllm是一个专为移动和边缘设备优化的轻量级多模态大型语言模型推理引擎,能够在无需依赖外部库的情况下,支持多种模型和硬件架构,提供快速推理能力。
StreamingLLM 是一种语言模型,能够顺利处理无尽的文本而不会失去上下文信息流,从而实现与人工智能助手的深度对话和长文本总结。
一种 LLM 代理系统,旨在解决大型语言模型在处理长输入时的限制,通过有效上下文长度的显著增加来提升阅读理解能力。
一个基于斯坦福的 Alpaca,并进行了中文优化的大语言模型项目,愿景是成为能够帮到每一个人的LLM Engine。
集成了 TeaCache 的 ComfyUI 插件,用于加速图像、视频和音频扩散模型的推理过程,支持多种模型,并提供了简单的安装方法和推荐配置
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型