CogVideoX Factory 是一个在 24GB GPU 内存下对 Cog 系列视频模型进行微调的项目,旨在实现高效的自定义视频生成,支持多种分辨率,提供内存优化的微调脚本和基于 TorchAO 和 DeepSpeed 的训练方式,适用于多种深度学习工作流。
Juice是一个软件项目,提供GPU-over-IP解决方案,使用户能够远程访问和共享可负担且易于获取的GPU资源。通过利用未使用的GPU容量(称为'Dark GPU'),Juice可以在不同的部署和提供商之间实现GPU的高效利用。用户只需在工作站或服务器上安装该软件,即可实现对GPU加速工作负载的直接远程访问。
专为大型语言模型(LLM)训练优化的类,集成了多种高效训练技术,旨在提升训练效率和内存使用效率。
使用C++以及CUDA加速神经网络样例,主要实现了矩阵加法和矩阵乘法,提供高效的计算能力,适用于深度学习中的高性能计算需求。
Gyroflow 是一个开源应用,通过调整陀螺仪、加速度计等数据,让运动视频效果更加稳定。它适用于电影摄影、无人机摄影等众多领域,能够使用内部和外部的运动数据来优化视频质量。
gpt-fast 是一种简约的、仅限 PyTorch 的解码实现,加载了最佳实践:int8/int4 量化、推测解码、张量并行性等,显著提高 LLM 操作系统的性能。
fastllm是一个纯C++开发的全平台大模型加速库,具有无第三方依赖的特性,当前支持国产大模型如ChatGLM-6B和MOSS。该库在单卡上可实现超过10000个token每秒的处理速度,并且能够在安卓设备上流畅运行ChatGLM-6B,同时支持CUDA进行计算加速。
Black Forest Labs的Flux模型训练脚本集,支持LoRA和ControlNet模型的微调,使用DeepSpeed进行高效训练,适用于512x512及1024x1024图片尺寸,提供下载链接和训练配置文件
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型