基于Video-LLaVA的视频理解模型,针对CinePile基准测试优化,显著提升了对主题探索、叙事分析、角色关系等高层次理解能力,性能接近Claude 3,在视频内容理解方面取得了显著进展
Apollo是一个专为视频理解设计的一系列大型多模态模型,能处理视频语言任务,包括长视频理解、时间推理和多轮视频对话,具有高效扩展性和优异的性能表现。