该项目提供了从多个视角生成场景图的能力,能够分析复杂的场景关系,提升视觉理解能力。
SynCHMR 是一种协同方法,通过结合相机轨迹和人体重建,解决深度、比例和动态模糊性问题。它使用人类感知公制 SLAM 进行重建,并学习场景感知的 SMPL 降噪器,以增强时空一致性和动态场景约束。
包含真实场景级视频和场景标注的大型数据集,具有10,510个多视角场景,51.2百万帧,分辨率为4k,还包括140个用于新视角合成(NVS)的基准视频以及来自SOTA NVS方法的训练参数,为深度学习的3D视觉任务提供了丰富的场景和标注信息
WonderWorld是一个开源项目,通过用户输入的图片生成多样化且可互动的3D场景,包含自然、城市和幻想等主题。它利用先进的Fast Layered Gaussian Surfels (FLAGS) 技术,大幅提升了生成速度,支持动态路径布局,适合各种交互操作。
CopernicAI是一个利用生成性AI技术创建创新的2+1D(全景+深度)环境的平台,当前处于alpha版本,持续改进质量。用户可以生成AI生成的360°全景图、小行星,以及将文本转换为360°全景图像。
HyperNeRF是一个支持高维表示和处理拓扑变化的神经辐射场的项目,旨在提高3D重建和场景渲染的效果。
该项目专注于通过同心因果注意机制减轻模型中的物体幻觉问题,旨在提高模型对物体的识别能力,特别是在复杂的视觉语言任务中。
基于Video-LLaVA的视频理解模型,针对CinePile基准测试优化,显著提升了对主题探索、叙事分析、角色关系等高层次理解能力,性能接近Claude 3,在视频内容理解方面取得了显著进展
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型