基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成框架。
AI-Waifu-Vtuber是一个基于VoiceVox Engine、DeepL、Whisper OpenAI、Seliro TTS和VtubeStudio等技术构建的AI伴侣虚拟YouTuber项目。该项目的功能包括生成具备人工智能语音和表情交互能力的虚拟YouTuber角色,支持在流媒体平台上进行直播并与观众互动。其中,VoiceVox Engine用于实现自然的语音合成,DeepL用于机器翻译,Whisper OpenAI用于自然语言处理和对话生成,Seliro TTS用于将文本转化为自然流畅的语音输出,VtubeStudio用于虚拟YouTuber角色的动作捕捉和控制,使其能够进行逼真的表情和动作交互。
Hallo3是复旦大学发布的项目,利用扩散Transformer网络实现高度动态逼真的数字人头像视频,能够处理非正面视角,渲染动态物体,并生成沉浸式背景,具备强大的泛化能力和身份一致性。
KeypointNeRF通过相对空间编码的关键点,生成多视角的体积化头像,适用于虚拟现实和游戏等领域。
Forge_VFM4AD是关于自动驾驶视觉基础模型的全面调研,涵盖了相关挑战、方法论和未来研究机会。
Studio Neiro AI 是一个生成视频头像的平台,可以创建出具有真实人类特征和微表情的虚拟角色,精准传达品牌脚本或音频演讲内容。用户可以自定义AI头像的声音,以匹配说话者的个性,适用于多种场景。
Aigur.dev 是一个免费的开源库,允许用户组合和调用完全类型化的生成AI管道。用户可以通过声音生成图像,或通过图像创作诗歌!该项目使生成AI的应用场景更加丰富多彩。
Plask是一个基于AI的动作捕捉动画工具,旨在为3D内容创作者提供快速原型制作和动画流程的革命性解决方案。用户可以将视频转换为详细的动画,适用于游戏开发者、动画师和数字艺术家,使高质量3D动画的创作变得简单和高效。
Imagen 2是谷歌最新的文本到图像扩散技术,能够生成高质量、逼真的图像输出,确保与用户的提示紧密对齐和一致。该技术通过深度学习和图像处理算法,提供了卓越的图像生成能力,适用于各种创意和商业用途。
Diarupt允许您在产品中构建基于视频的实时AI交互,使用人性化的头像和真实的声音,能够进行长时间的对话,通过易于使用的API和SDK进行暴露。
SynCHMR 是一种协同方法,通过结合相机轨迹和人体重建,解决深度、比例和动态模糊性问题。它使用人类感知公制 SLAM 进行重建,并学习场景感知的 SMPL 降噪器,以增强时空一致性和动态场景约束。
EchoMimicV2是一个开源的人体动画生成模型,支持通过音频输入生成逼真的半身人物动画,具有引人注目的动作表现力和协调一致的表情与肢体动作,简化了生成流程,适用于多种创作场景。
包含10万个压缩驾驶视频的数据集,用于机器学习研究,可用于GPT视频预测模型的实验,还包含编码器/解码器和视频预测模型示例
SLASH IMAGINE是一个强大的平台,允许开发者通过REST API将Midjourney AI集成到他们的应用中,从而创建专业级的视觉作品,适用于摄影、室内设计、书籍封面等多个领域。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型