OmniHuman-1是一个国产人类视频生成框架,首次实现单模型支持音频、视频、文本和姿态的任意组合生成视频,突破了现有方法只能单一模式生成的限制。该框架具备超长时间稳定生成能力,支持30秒以上的视频生成,通过全条件训练策略提升数据利用率,并通过大规模姿态条件数据训练,减少手部抖动和不自然现象,展现出超强的泛化能力,甚至支持非人类图像的拟人化动画。