DSTA 是一种基于视频的人体姿势估计的新方法,能够将输入直接映射到输出关节坐标。它通过解耦时空聚合网络和联合局部感知注意机制,灵活捕获关节的空间和时间信息,在 PoseTrack2017 数据集上实现了显著的性能提升。
Key2Mesh 仅利用 2D 人体姿势关键点作为输入来进行 3D 人体网格重建。该项目支持大规模运动捕捉数据集的训练,并且不依赖于视觉数据的 3D 标签,通过对抗域适应方法提高在 RGB 图像上的性能。其运行速度比之前最先进的模型快 12 倍,极大提升了重建效率。
Movmi是一款基于AI的人体动作捕捉软件,允许3D动画师从视频中创建动画,无需特殊的装备或硬件。它利用先进的AI算法和计算机视觉技术,从2D媒体内容中估计人类3D运动。
HandDiff是一种利用扩散模型进行3D手势估计的方法,结合图像和点云数据,实现精确的手势识别和追踪。该项目致力于提升虚拟现实和增强现实中的人机交互体验。
SurgicalSAM是一个高效的手术工具分割项目,支持类提示,旨在提升手术视频分析和医疗图像处理的效率。
H2O是一个基于强化学习的human-to-humanoid实时全身远程操作框架,旨在通过使用大型人体运动数据集进行可扩展的重定向和训练,使得用户只需一个RGB摄像头即可操作全尺寸的人形机器人,从而释放类人机器人的认知技能和适应性潜力。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型