该项目汇聚了最新的大型视频模型相关论文、代码及数据集,为研究者提供便捷的资源获取途径,促进视频理解领域的发展。
Pyttipanna是一个为Pytti 5提供接口的框架,旨在利用机器学习模型创建和渲染视频。用户可以通过结构化、叙述和实验化视频创作的提示来实现自己的创意。
Tammy AI是一个利用人工智能技术提升用户YouTube观看体验的平台,提供AI驱动的视频摘要、与影响者聊天等多种功能,帮助用户在学习过程中获得更高效的体验。
基于Video-LLaVA的视频理解模型,针对CinePile基准测试优化,显著提升了对主题探索、叙事分析、角色关系等高层次理解能力,性能接近Claude 3,在视频内容理解方面取得了显著进展
文本到视频分数(T2VScore),一个新的评估指标,从文本符合度和视频质量两个维度全面评估视频生成。
这是一个关于图神经网络(GNN)的资源列表,包含了广泛的研究论文、代码和数据集链接,涵盖最新的GNN技术及应用,旨在为研究人员和开发者提供参考和学习材料。
这是一个集合了最新、最前沿、有趣的针对大型语言模型(LLMs)的越狱方法的项目。它包括相关的论文、代码、数据集、评估和分析,旨在为研究人员提供多样化的越狱技术,适用于不同类型的LLM。
Too long; didn't watch AI 是一款人工智能驱动的工具,能够将任何视频总结成简明易懂的内容,帮助用户摆脱信息过载。
该项目提供了图基础模型的文献资源列表,旨在汇总最新的研究成果和方法,支持多种图学习任务,促进图模型的知识共享与交流。
基于 Rust 和 ffmpeg 的视频解码库,旨在快速解码视频,特别适用于机器学习场景,在机器学习领域处理视频数据时,能高效地加载视频片段,避免了不必要的全视频解码,大大节省时间和资源
该项目提供了深度学习模型量化相关论文的列表,并根据模型结构和应用场景对论文进行了分类,方便研究人员查阅和了解最新的研究动态。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型