混合自回归线性核(Mixed Auto-Regressive Linear kernel),一个经过高度优化的FP16xINT4矩阵乘法核,用于LLM推理,可以在批量大小为16-32个token的情况下实现接近理想的约4倍加速。
TokenHawk是一个基于WebGPU的工具,旨在通过手写LLaMA模型进行高效的LLM推理,支持多种输入格式,并提供实时推理性能优化,适用于各种应用场景。
本项目旨在分享大模型相关技术原理以及实战经验,包括大模型工程化和应用落地,降低学习难度,促进技术普及。
一个用C++/CUDA实现的大型语言模型(LLM)推理工具,不依赖额外的库,除了用于输入输出。该工具旨在提供高效的推理能力,支持加载和保存冻结的LLM权重,适合各种应用场景。
一个开源的高性能大语言模型推理库,旨在通过最小的设置在各种硬件上实现大语言模型的推理,并且提供最先进的性能,支持跨多个设备的分布式推理,兼容多种数据格式。
一个轻量级LLM应用开发框架,类似于Python requests库的简洁设计理念,提供了90%必需的LLM开发功能。
Branches是一个基于图的高级算法原型工具,专为大型语言模型(LLM)的推理和规划设计,旨在提升模型的推理能力和优化决策过程。
LLM-Engines是一个统一的大规模语言模型推理引擎,支持多种开源模型(如VLLM、SGLang、Together)和商业模型(如OpenAI、Mistral、Claude),通过不同引擎验证推理的准确性,旨在提供高效和灵活的语言处理解决方案。
LiteChain是一个构建LLMs应用的轻量级替代LangChain的选择,专注于拥有小而简单的核心,易于学习、适应,文档完备,完全类型化和可组合,旨在帮助开发者快速实现复杂应用逻辑。
kotaemon是一个开源的RAG基础工具,旨在通过可视化界面与用户的文档进行便捷的对话。它不仅提供了多种功能模块,还支持多种大型语言模型(LLM)的API,能够适应不同的使用场景,确保信息的实时更新与准确性。