北京大学的多模态图像视频识别项目,旨在将视觉信息融入语言特征空间,以推动大型视觉-语言模型的发展。
HunyuanVideo是腾讯开源的混元模型视频版本,旨在提供高效的视频处理和分析能力。该项目支持多种视频处理任务,并能够实时分析视频内容,适用于各种输入和输出格式。
这个开源项目的功能是利用ChatGPT进行对话,并且可以在聊天过程中发送和接收图像,同时能够将对话指令翻译成Stable Diffusion的prompt,并利用Stable Diffusion和ControlNet生成用户想要的图片。
Imagen是一个文本到图像的扩散模型,具有极高的真实感,利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数,并在样本质量和图像-文本对齐方面被人类评审者优先选择。
该项目旨在通过研究自然语言处理中的组合泛化,提供有效的模型和方法,以提升NLP任务的表现。
MiniGPT4-Video是一个专为视频理解而设计的多模态大模型,能够同时处理时态视觉数据和文本数据,善于理解视频的复杂性,适用于多种视频内容的分析和处理任务。
JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
一个专注于图语言模型的研究项目,旨在利用图结构来提升语言表示的效果,并整合多种基于图的技术于自然语言处理(NLP)领域。
Glue Factory是CVG开发的一个库,用于训练和评估深度神经网络,专注于提取和匹配局部视觉特征。
AgentBench是一个多维演进基准,评估语言模型作为Agent的能力,包含8个不同环境,专注于LLM在多轮开放式生成场景中的推理和决策能力。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型