Snake-SLAM是一个可扩展的可视化惯性SLAM系统,专为低功耗航空设备设计,能够有效融合视觉和惯性传感器数据,实现实时导航和定位。
SchurVINS是一个基于Schur补的轻量级视觉惯性导航系统,旨在提供高效且准确的导航能力。
一款为麦轮机器人设计的全自主导航系统,能够实现环境探索、路径规划和基础导航,支持AI模型运行和数据无线传输。
Depth Pro 是一个基础模型,用于零样本度量单目深度估计,能够在不到一秒的时间内生成清晰的深度图。它结合了真实和合成数据,利用高效的多尺度视觉变换器,提供高分辨率和准确的深度测量,适用于各种视觉任务。
一种深度估计技术,能让任何相机拍出的照片都拥有精准的深度信息,无需额外训练数据,就像给照片加上了“深度魔法”,让3D场景重建等应用变得更简单
Text2Listen项目旨在让大语言模型能够理解人类语言,并做出合适的面部表情和动作,从而增强与用户的互动体验。该项目通过分析说话者的语音内容,生成对应的面部反应,并使用VQ-VAE技术对面部手势进行量化,确保生成的听众动作流畅且准确反映语言语义。此外,项目还将复杂的手势分解为简单的基础元素,从而提升聊天机器人的自然对话体验。
包含8种不同舞蹈风格的6小时运动捕捉和音频数据集,数据以BVH格式呈现,并针对一个统一的骨架进行重新定位,特色是包含了不同风格的舞蹈,并提供了详细的运动捕捉和音频数据。
HandDiff是一种利用扩散模型进行3D手势估计的方法,结合图像和点云数据,实现精确的手势识别和追踪。该项目致力于提升虚拟现实和增强现实中的人机交互体验。
Zero123++是一个基于扩散模型的图像生成工具,只需提供一张输入图像,即可生成该图像的多个视角,支持高质量图像的生成,适用于各种类型的图像,为计算机视觉和虚拟现实应用提供强大支持。
Scale是一个可信赖的平台,为自驾车、地图制作、增强/虚拟现实、机器人等AI应用提供高质量的训练数据。用户可以访问其平台,上传数据,由专业团队进行标注和注释,简化数据标记过程。
3D Scan Pro利用激光雷达技术和摄影测量法,将现实中的物体转化为精确的3D模型,简化了日常物品的数字化过程。用户可以轻松捕捉和保存物体的三维信息,便于后续使用。
该项目探索了新视角合成技术,致力于生成动态视图和逼真的图像合成,集成神经渲染技术,为虚拟环境中的视觉效果提升提供支持。
一个用于姿势捕捉和动作捕捉的在线系统,提供增强的功能和用户体验。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型