基于 Rust 和 ffmpeg 的视频解码库,旨在快速解码视频,特别适用于机器学习场景,在机器学习领域处理视频数据时,能高效地加载视频片段,避免了不必要的全视频解码,大大节省时间和资源
该项目是一个基于PyTorch实现的Spatial Transformer Network (STN),采用Thin Plate Spline (TPS)技术进行空间变换,能够灵活地对输入图像进行几何变换,支持高效的训练与推理。
Stick-breaking Attention 是一种基于 Triton 的变长序列注意力机制实现,旨在通过优化计算方式提升在 GPU 上的性能,适合多种深度学习任务,易于与现有框架集成。
EETQ是针对transformer模型的量化工具,使用Flash-Attention V2优化attention的推理性能,简单易用,只需一行代码即可适配您的PyTorch模型。
Autoclipr是一个终极工具,能够从YouTube视频中自动创建引人入胜的垂直短视频,帮助用户以最小的努力扩大受众。
Pyttipanna是一个为Pytti 5提供接口的框架,旨在利用机器学习模型创建和渲染视频。用户可以通过结构化、叙述和实验化视频创作的提示来实现自己的创意。
crystalcoder-data-prep是为CrystalCoder 7B LLM准备训练数据的代码,涵盖数据下载、token化、序列拼接、FIM增强和数据混洗等多个步骤,旨在提高模型训练的效率和效果。
该项目汇聚了最新的大型视频模型相关论文、代码及数据集,为研究者提供便捷的资源获取途径,促进视频理解领域的发展。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型