EETQ是针对transformer模型的量化工具,使用Flash-Attention V2优化attention的推理性能,简单易用,只需一行代码即可适配您的PyTorch模型。
FasterTransformer是一个旨在提高Transformer模型速度和效率的工具,支持多种架构如BERT和GPT,提供高性能的推理和训练,且易于集成。它支持FP16和INT8量化技术,能够在NVIDIA GPU上实现高效的模型推理和快速训练,适合在生产环境中部署优化后的模型。
gpt-fast 是一种简约的、仅限 PyTorch 的解码实现,加载了最佳实践:int8/int4 量化、推测解码、张量并行性等,显著提高 LLM 操作系统的性能。
基于 Rust 和 ffmpeg 的视频解码库,旨在快速解码视频,特别适用于机器学习场景,在机器学习领域处理视频数据时,能高效地加载视频片段,避免了不必要的全视频解码,大大节省时间和资源
DirectAI使用户能够快速构建强大的计算机视觉模型,无需编码或训练数据。它利用大型语言模型和零样本学习,根据用户的描述生成适合的模型。
利用torchao和diffusers优化扩散模型的端到端方案,支持推理和FP8训练,旨在提升模型的性能和效率。
Open Interpreter Local III是一款开源的本地模型运行和训练工具,支持高速推理和个性化模型定制。
Lorai是一个平台,允许用户使用自己的品牌资产训练生成AI模型,以在几秒钟内创建独特内容。用户可以在浏览器中轻松训练低秩适应(LoRAs),无需计算资源,快速生成高质量设计元素。
用于 LLaMA 3 8B 参数版本的轻量级 CUDA C 语言实现的推理引擎,旨在在 Nvidia GPU 上进行高效的并行处理。该项目旨在充分利用 Nvidia GPU 的性能,以提供快速的模型推理,并易于集成到现有的机器学习工作流中。
VLLM是一个高效的语言模型的推理框架,旨在简化大规模语言模型的部署和推理过程。它支持多种语言模型的快速加载与使用,并提供高效的批处理推理功能,同时支持动态分配硬件资源以优化性能。VLLM内置多种优化算法以提高推理速度,并提供详细的性能监测和调试工具。
基于PyTorch的易于使用的增强学习框架,通过Lightning Fabric加速。该框架旨在提供一个简单且可扩展的强化学习算法框架,同时解耦强化学习算法与环境,使其能与任何环境一起使用。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型