基于Video-LLaVA的视频理解模型,针对CinePile基准测试优化,显著提升了对主题探索、叙事分析、角色关系等高层次理解能力,性能接近Claude 3,在视频内容理解方面取得了显著进展
包含10万个压缩驾驶视频的数据集,用于机器学习研究,可用于GPT视频预测模型的实验,还包含编码器/解码器和视频预测模型示例
该项目汇聚了最新的大型视频模型相关论文、代码及数据集,为研究者提供便捷的资源获取途径,促进视频理解领域的发展。
HiChatbot是一个基于AI的聊天机器人,可以回答您关于文档、文本、网页或视频文本的提问。只需上传文档、文本,或提供网页链接和视频链接,HiChatbot就能通过聊天界面与您进行问答对话。
一种在视频生成中进行运动定制的新颖方法,解决了在视频生成模型中彻底探索运动表示方面存在的广泛差距。
CogVideoX-Fun 是一个强大的工具,支持从图片生成视频,并能在任意分辨率下生成高质量视频,适用于各种AI图像和视频创作需求,同时支持训练基线模型和Lora模型。
A.I Framewerks是一个强大而全面的人工智能框架,旨在帮助开发者轻松创建和部署AI模型。它提供广泛的功能和工具,以加速开发过程并提高性能。
Rerun 是一个用于记录计算机视觉和机器人数据的 SDK,并配有可视化工具,可以随时间探索这些数据。它允许用户以最小的代码调试和理解系统的内部状态和数据。开发者可以将数据记录到 Rerun SDK,系统会自动进行可视化处理。Rerun 支持来自多个进程的实时数据流,并可回放录制的数据。Rerun Viewer 根据记录的数据创建可配置的可视化效果,用户可以随时回溯和前进时间。
关于如何有效蒸馏大型语言模型的最佳实践实用指南,提供了一系列的最佳实践,帮助工程师和机器学习从业者在生产应用中更高效地蒸馏和使用语言模型。
该项目提供了从多个视角生成场景图的能力,能够分析复杂的场景关系,提升视觉理解能力。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型