Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
开源GPU集群管理器,用于运行大型语言模型(LLM),支持多种硬件平台,提供轻量Python包和OpenAI兼容API,简化用户和API密钥管理,实时监控GPU性能和利用率
一款基于苹果MLX框架的本地推理服务器,专为Apple Silicon芯片优化设计。支持OpenAI兼容的API接口,实现文本对话、语音转换、图像生成等AI能力。
RouteLLM 是一个用于服务和评估 LLM 路由器的框架,旨在在不影响模型质量的情况下显著节省 LLM 的使用成本。它提供了一个 OpenAI 兼容的 API,能够根据请求自动路由到最佳模型,同时开箱即用的训练路由器功能使得成本降低高达 85%,且性能保持在 95% 的 GPT-4 水平。RouteLLM 还支持轻松扩展,以便添加新的路由器和基准,并通过单个命令比较所有路由器的性能。
OpenAI兼容的API,用于TensorRT LLM triton backend,提供了与langchain集成的功能,支持高效推理和灵活后端配置。
EET是一个针对大型NLP模型的可扩展推理解决方案,旨在提供高性能的推理支持,特别是针对Transformer结构的大模型,同时支持长序列的场景,易于集成和使用。
自主管理、社区驱动的本地 OpenAI 兼容 API,能够在消费级硬件上运行 LLM,且无需 GPU。
为ComfyUI打造的全能推理优化方案,旨在实现通用、灵活且快速的推理加速。它支持多种推理场景,并且通过灵活的配置选项来满足不同用户的需求。该项目的设计目标是提升推理性能,并且能够轻松集成到现有的ComfyUI项目中。
这项工作从表达能力的角度,为仅解码器的 Transformer 提供了 CoT 的强大功能的理论理解,旨在提高大型语言模型在算术和符号推理任务上的表现,特别是那些固有串行的计算问题。
H2O.ai的开源大语言模型GPT项目,旨在创建世界上最好的开源GPT模型,提供强大的自然语言处理能力,支持多种任务,适用于大规模应用。
基于LangChain Python和Next.js构建的生成式UI web应用,提供构建生成式用户界面的模板,支持使用Shadcn构建UI组件,集成了OpenAI API和LangSmith SDK。
一个用于端到端架构和大语言模型(LLM)的项目,旨在简化和优化开发过程。
在任意应用中用一行代码将商业版LLM(GPT 3.5/4)替换为私有模型(Falcon、GPT4ALL等),旨在提供与OpenAI模型(如GPT 3.5/4)无缝对接的替代方案
一个Python应用开发框架,可以在几分钟内构建类似ChatGPT的用户界面,支持多种元素管理和云部署,适合快速开发和部署聊天机器人及互动应用。
LLM-Engines是一个统一的大规模语言模型推理引擎,支持多种开源模型(如VLLM、SGLang、Together)和商业模型(如OpenAI、Mistral、Claude),通过不同引擎验证推理的准确性,旨在提供高效和灵活的语言处理解决方案。
Kyanite是一个用Rust开发的神经网络推理库,支持CPU和Nvidia GPU,采用模块化设计,能够清晰地分割各个推理阶段,提供高效的内存管理和计算性能。
GPTRPG是一个支持llm的AI代理的简单类似RPG的环境,通过OpenAI API将AI代理植入到游戏角色中,部署多个代理以自主参与在线游戏,提供动态剧情生成和交互式体验。
PromptPortals是一个管理和优化AI提示的平台,用户可以通过API和分析功能,结合用户反馈,轻松创建和管理OpenAI API调用的提示。它为AI应用程序提供了一个简单的中间层接口,帮助开发者提升交互效果。