E.T. Bench旨在实现开放事件级的视频语言理解,结合视频和语言数据,推动多模态学习的进展。
一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。
一个专门面向长视频生成的电影级数据集,特点是包含完整电影长度的视频、连贯的故事情节和多场景叙事,确保角色外观和音频在不同场景中的一致性,并提供分层的数据结构,包含高层电影信息和详细的镜头级描述
I2VGen-XL是一个基于输入图像生成高清视频的模型,由阿里云达摩院研发,具有良好的泛化性和优越的生成效果。
这是一个音频字幕的数据集,旨在评估音乐与语言模型的性能,包含多种歌曲的音频描述,促进音乐与自然语言处理交叉领域的研究。
达摩院开源的视觉-语言预训练的语料库,包含从在线教学视频中提取的多模态数据,支持多种学科的学习和研究。
这个开源项目的功能主要是利用ChatGPT技术来构建Kedro机器学习管道和Streamlit前端。
Imagen是一个文本到图像的扩散模型,具有极高的真实感,利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数,并在样本质量和图像-文本对齐方面被人类评审者优先选择。
Mira (Mini-Sora) 是腾讯 PCG ARC 实验室推出的一个高质量长视频生成项目,旨在迈向类似 Sora 的视频生成技术。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型