NanoFlow是一个面向大型语言模型(Large Language Models, LLMs)的高吞吐量高性能服务框架,采用设备内并行性、异步CPU调度和SSD卸载等关键技术,显著提升资源利用率和推理吞吐量。
EricLLM是一个快速批处理API,旨在为各种大语言模型提供高效的服务,支持多种模型配置和资源管理,方便用户进行批量文本处理和集成到现有应用中。
Abstract-Paxos是一个实现Paxos共识算法的库,旨在为分布式系统提供一致性和可靠性。它支持多种共识协议的实现,具备灵活的配置选项,易于扩展和集成,提供高性能和低延迟的响应,适合多种应用场景。
Innov8IQ是一个基于网络的平台,旨在帮助企业管理和优化办公空间,从而提高生产力和效率。用户可以通过注册账户,登录后访问各种功能和工具,以有效管理办公空间。该平台提供直观的导航和用户友好的界面,便于使用。
AI Town是一个旨在提供强大基础的平台,支持共享全局状态、事务处理和事件日志,便于开发和扩展。
适用于端边云场景的AI推理应用开发框架,提供了基于Pipeline的并行执行流程,能帮助AI应用开发者较快的开发出高效、高性能,以及支持软硬协同优化的AI应用。
这是一个关于出色LLM推理的小集合,包含文献、博客和文档以及代码,支持TensorRT-LLM、流式LLM、SmoothQuant、WINT8/4、连续批处理、FlashAttention、PagedAttention等技术。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型