HandDiff是一种利用扩散模型进行3D手势估计的方法,结合图像和点云数据,实现精确的手势识别和追踪。该项目致力于提升虚拟现实和增强现实中的人机交互体验。
X Model是一个强大的平台,允许用户轻松运行和集成流行的人工智能模型到他们的产品中。该平台提供了多种API和工具,帮助开发者加速AI模型的部署和应用,提升产品的智能化水平。
MPS-Net是一个用于从单目视频中捕捉人类运动的模型,专注于时间注意的3D人体姿势和形状估计。该项目通过先进的算法,能够准确地捕捉到人类在运动中的动态变化,为动作分析和交互式应用提供了强有力的支持。
Text2Listen项目旨在让大语言模型能够理解人类语言,并做出合适的面部表情和动作,从而增强与用户的互动体验。该项目通过分析说话者的语音内容,生成对应的面部反应,并使用VQ-VAE技术对面部手势进行量化,确保生成的听众动作流畅且准确反映语言语义。此外,项目还将复杂的手势分解为简单的基础元素,从而提升聊天机器人的自然对话体验。
Snake-SLAM是一个可扩展的可视化惯性SLAM系统,专为低功耗航空设备设计,能够有效融合视觉和惯性传感器数据,实现实时导航和定位。
DSTA 是一种基于视频的人体姿势估计的新方法,能够将输入直接映射到输出关节坐标。它通过解耦时空聚合网络和联合局部感知注意机制,灵活捕获关节的空间和时间信息,在 PoseTrack2017 数据集上实现了显著的性能提升。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型