Video-R1是一个为视频理解任务带来超强推理能力的多模态大模型。它首次在视频理解领域实现了准确率和推理长度的双重提升,使用7B参数模型,训练900步仅需10小时。通过强推理数据集的助力,Video-R1能够涌现出深度思考能力,为视频理解任务提供了强大的支持。
FLORA AI 是一个集成了多种AI工具的智能创意平台,支持文本、图像和视频等多种媒体格式的协作创作。它通过提供全面的AI工具包,帮助团队实时协作,促进创意项目的构思、迭代和探索。
通义开源的Wan视频生成模型,显存要求超低,仅需8G显存即可运行高质量视频生成。该模型支持文生视频、图生视频、视频编辑、文生图等多种功能,是业界首个双语视频模型,能够同步生成中英字幕。
NBP是一种通过半自回归建模实现视频生成的创新方法。它将生成单元从单个token升级为块(如行或帧),大幅提升生成效率。块内采用双向注意力机制,使token能够捕捉更强大的空间依赖性。此外,NBP通过并行预测多个token,推理速度提升了11倍。
VideoFusion是一款开源免费的一站式视频批量处理工具,专为无经验的视频创作者设计。用户只需点击几下即可实现视频优化,无需关心复杂参数,轻松完成视频预处理。
SmolVLM2 是一个非常小的视觉模型,提供 256M、500M、2.2B 三个版本,能够识别物体、回答问题和对视频做总结。该模型设计轻巧,适用于移动设备,如 iPhone,能够高效执行多种视觉任务。
ComfyUI-WanVideoWrapper是一个为阿里Wan视频模型设计的ComfyUI适配工具,目前主要支持图生视频功能。它提供了强大的AI工具,用于视频生成和编辑,支持本地运行1.3B模型,并优化了内存使用,使其在处理大规模视频时更加高效。
由普渡大学Stanley H. Chan教授发布的扩散模型在图像和视觉领域的教程,详细讨论了扩散模型的基本思想,适合有意从事扩散模型研究或应用的本科生和研究生。教程内容涵盖了扩散模型的基础概念、生成工具在图像和视频生成中的应用,以及相关的学习资源。
Diffusionstudio Agent是一个面向视频编辑的框架,旨在通过人工智能技术赋予编辑过程更多自主性,使视频创作变得像说话一样简单。该框架支持自然语言指令,用户可以直接用文字描述生成视频,同时具备强大的文档搜索功能,能够快速找到所需素材。此外,Diffusionstudio Agent是开源免费的,用户可以轻松上手并在开源社区中贡献代码或获取支持。
Ovis-2是一个视觉大模型,具备强大的图像和视频识别能力,尤其在OCR方面表现卓越。虽然其推理能力目前定位为辅助识别,但建议在实际使用中结合其他推理能力更强的大模型,以实现更全面的功能。
Wan2.1是阿里开源的大规模视频生成基础模型套件,在多个基准测试中超越了现有的开源模型和商业解决方案。它支持消费级GPU,适配几乎所有消费级显卡,并支持多种任务,包括文本到视频、图像到视频、视频编辑等。
SkyReels-V1-Hunyuan-I2V是基于腾讯混元文生视频微调的图生视频模型,适用于comfyUI平台。该模型主要针对以人为主体的数据,能够捕捉33种独特面部表情,并拥有超过400种自然动作组合。它在开源社区中属于较为先进的图生视频模型,提供了无需充值会员的视频生成解决方案。
Stability公司本周推出的文本生成视频技术,完全开源,能够生成分辨率为576x1024的视频,每个视频包含14或25帧。该技术支持生成多角度视图,对3D场景有深入理解,并通过LoRA技术控制摄像头,生成高分辨率视频。
AnyV2V 是一个适用于任何视频到视频编辑任务的即插即用框架,能够在视频编辑中实现高外观和时间一致性。它支持广泛的视频编辑任务,并可以无缝集成现有图像编辑工具,保持与源视频的外观和运动一致性。该框架免训练,简化了视频编辑流程,支持基于提示的编辑、基于参考的风格迁移、主题驱动编辑以及人物/物体操纵等多种功能。
VideoRAG 是一个专为超长视频内容理解和生成设计的工具,能够在单个RTX 3090 GPU上处理数百小时的视频内容。它通过构建结构化的视频知识图谱,高效索引超长视频,并支持多模态检索,精准匹配文本与视频语义。
Everlyn-1是首个开源的自回归基础视频AI模型,为视频生成和多模态理解带来突破。它通过创新性地引入Wasserstein距离优化矢量量化,显著提升了训练稳定性和性能。同时,其提出的EfficientARV框架能够高效生成图像和视频,支持多种生成任务。此外,ANTRP技术有效减少多模态大语言模型中的幻觉现象,进一步提升生成质量。
AniTalker是一个创新的模型,通过单张图片和音频生成面部动画。与现有模型主要关注口型同步不同,AniTalker通过通用运动表示法有效捕捉面部复杂动态,包括细微表情和头部运动。该模型利用自监督学习策略,实现更精确的运动描述,并通过扩散模型生成多样且可控的面部动画。
Wan2.1是阿里云推出的开源视频大模型,支持消费级显卡进行AI视频生成,具备140亿参数,展现出卓越的性能表现,能够处理复杂的运动和细腻的情感捕捉,适合多种视频生成任务。
Spotter Studio是一个创新的全合一YouTube构思平台,旨在彻底改变创作者的内容构思和制作方式。该平台专为YouTube创作者量身打造,提供全面的工具套件,简化头脑风暴、研究和规划过程。通过整合先进的数据驱动洞察和用户友好的界面,Spotter Studio帮助创作者生成更具吸引力的视频创意,最终增加观看量并提升创作过程。
DragGAN通过拖动的方式对图片进行局部微调,允许用户精确控制生成图像的姿态、形状、表情和布局。它利用特征运动监督和新颖的点追踪方法,支持对各种类别的图像进行变形和操控,生成高质量、逼真的图像输出。
Story-Flicks 是一个创新的工具,通过输入主题,利用 AI 大模型自动生成完整的高清故事短视频。它支持多种语言和图像生成模型,具备强大的适配性,能够满足多样化的创作需求,帮助用户轻松实现创意落地。
MyFaceSwap 是一款免费的在线工具,用户可以在视频和图像中进行换脸,包括成人内容。它利用 AI 技术实现无缝换脸和同步嘴型,提供一个无需水印或注册的易用平台。用户可以通过上传照片和视频来创建自己的视频内容,结果保持隐私和数据安全。
YOLOv12是一个基于注意力机制的新框架,旨在突破传统CNN架构的局限,提高性能和计算速度。
AI PPT Maker是一个创新工具,可以将文档、音频和视频等多种内容快速转换为专业演示文稿。支持多种格式和语言,用户只需几秒钟便能利用成千上万的模板和主题生成演示文稿。该工具由先进的AI技术(DeepSeek和ChatGPT)驱动,为用户提供无缝的创建、编辑和分享演示文稿的体验。适用于商业会议、教育场景、客户提案和个人项目,适合广泛受众。
OmniHuman-1是一个国产人类视频生成框架,首次实现单模型支持音频、视频、文本和姿态的任意组合生成视频,突破了现有方法只能单一模式生成的限制。该框架具备超长时间稳定生成能力,支持30秒以上的视频生成,通过全条件训练策略提升数据利用率,并通过大规模姿态条件数据训练,减少手部抖动和不自然现象,展现出超强的泛化能力,甚至支持非人类图像的拟人化动画。
Figure AI刚刚重磅发布其端到端具身大模型HELIX,旨在推动具身智能的发展。该模型通过融合世界模型的视频预训练和结合强化学习的后期训练,提供了多个功能以支持各类智能任务。
Deep Lake AI Knowledge Agent 能够对各种类型、位置和规模的数据进行深度研究,支持多模态检索,利用视觉语言模型进行数据的摄取和检索,能够将存储在任何地方的各种数据(如PDF、图像、视频、结构化数据等)连接到AI。随着时间的推移,它会根据你的查询进行学习,定制结果以适应你的工作需求。
MyKaraoke Video是一个在线工具,可快速轻松创建卡拉OK和歌词视频,具备AI驱动的伴奏去除、自动歌词同步和全自定义功能,用户可以在浏览器界面中操作。
AI Watermark Remover是一个先进的AI工具,旨在快速轻松地去除图片和视频中的水印,无需Photoshop技能,非常适合寻求干净媒体的创作者和专业人士。
VidCap是一款自动为视频添加字幕和翻译的应用,旨在提升社交媒体平台(如Instagram和TikTok)上的观众参与度。它支持超过100种语言,并提供多种字幕自定义选项。