该项目探讨了通过量化、剪枝和蒸馏等手段来降低改造和使用大语言模型(LLM)的成本。
这是一个新的简单替代方案,基于计算输入激活的权重大小和范数之间的逐元素乘积。
nanotron是一个开源工具,旨在简化大型语言模型的训练过程,提供了一种高效的3D并行训练方法,从而更好地利用计算资源。
基于ONNX Runtime的Java的Stable Deffusion管线,具有GUI界面和负面文本支持,展示了如何在Java中使用ONNX Runtime进行推理,并提供了性能优化的最佳实践
提出 RetNet 作为 LLM 的基础架构,同时实现训练并行性、低成本推理和良好性能。
Dolomite Engine是一款用于预训练和微调大型语言模型的超优化库,集成了多项关键创新,包括模型架构、微调方法和系统优化。它旨在提高大型语言模型的训练效率和效果,支持多种模型架构,优化微调过程,并提供系统性能的显著提升。
一个用于端到端架构和大语言模型(LLM)的项目,旨在简化和优化开发过程。
vit.cpp是一个使用纯C/C++实现的视觉变换器(ViT)推理库,结合ggml库进行优化,旨在提供高效的图像分类解决方案,易于集成和使用,适用于各种项目和嵌入式系统。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型