适用于端边云场景的AI推理应用开发框架,提供了基于Pipeline的并行执行流程,能帮助AI应用开发者较快的开发出高效、高性能,以及支持软硬协同优化的AI应用。
一个用Rust编写的轻量神经网络推理引擎,能将ONNX格式的机器学习模型高效运行在各种平台上,特别适合需要高性能和跨平台支持的场景。
长上下文大型语言模型的高效推理加速工具,通过动态稀疏注意力机制,实现预填充过程的10倍速度提升,同时保持准确性,适用于A100等硬件平台
一款专注于推理计算流水线的集成开发环境,让开发者能够更便捷地构建、调试和部署LLM计算图。
LiteRT是Google AI Edge团队推出的高性能、可信赖的边缘AI运行时,旨在继承TensorFlow Lite的优势,并拓展其愿景,支持多种AI框架并优化资源利用率,方便集成和部署。
该项目主要聚焦于推理任务,提供一个大型AI模型或基础模型的资源列表,旨在为研究人员和开发者提供丰富的推理模型选择及相关信息。
为ComfyUI打造的全能推理优化方案,旨在实现通用、灵活且快速的推理加速。它支持多种推理场景,并且通过灵活的配置选项来满足不同用户的需求。该项目的设计目标是提升推理性能,并且能够轻松集成到现有的ComfyUI项目中。
Scoopika是一个开源平台,旨在帮助开发者为他们的应用程序创建能够实时观察、对话、聆听、采取行动和协作的AI代理。Scoopika的使命是为开发者提供构建快速可靠的AI驱动应用的基础组件,使他们能够专注于应用程序及其功能。
onedollarai.lol突破了传统AI服务的界限,以每月仅1美元的价格提供最优质的AI服务,旨在让更多用户享受高水平的人工智能技术。
开源深度学习平台
DeepSpeed Chat是一个开源项目,其功能是将完整RLHF流程加入到模型训练中,并提供类ChatGPT模型。该项目适用于各种规模的高质量类ChatGPT模型的训练,并可在微软开源中心中获得资源。
集成了 TeaCache 的 ComfyUI 插件,用于加速图像、视频和音频扩散模型的推理过程,支持多种模型,并提供了简单的安装方法和推荐配置
Gemini是谷歌最大的AI模型,旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色,支持不同尺寸的优化:Ultra、Pro和Nano。Gemini从零开始构建为多模态,能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。
NanoFlow是一个面向大型语言模型(Large Language Models, LLMs)的高吞吐量高性能服务框架,采用设备内并行性、异步CPU调度和SSD卸载等关键技术,显著提升资源利用率和推理吞吐量。