AI开源项目

Video-XL-超长视频理解大模型

Video-XL是一个超长视频理解大模型,利用语言模型的能力对长视觉序列进行压缩,展现出色的长视频理解能力,适用于处理小时级的超长视频。

Video-XL是一个超长视频理解大模型,利用语言模型的能力对长视觉序列进行压缩,展现出色的长视频理解能力,适用于处理小时级的超长视频。
Video-XL的特点:
1. 仅需一块80G显卡即可处理2048帧输入
2. 在多个主流长视频理解基准评测中排名第一
3. 在视频‘海中捞针’任务中取得近95%的准确率
4. 开源模型代码,可供研究使用
5. 高效率与性能的良好平衡,适用于小时级超长视频

Video-XL的功能:
1. 准确检索长视频中的广告内容
2. 理解电影中主要事件的发生
3. 进行电影摘要
4. 视频异常检测
5. 广告植入检测

相关推荐

暂无评论

暂无评论...