AI视频工具 | AI-magic

Video-R1是一个为视频理解任务带来超强推理能力的多模态大模型。它首次在视频理解领域实现了准确率和推理长度的双重提升，使用7B参数模型，训练900步仅需10小时。通过强推理数据集的助力，Video-R1能够涌现出深度思考能力，为视频理解任务提供了强大的支持。

0

多模态大模型推理能力提升深度思考能力视频理解

NFLORA AI官网 – 智能创意协作平台

FLORA AI 是一个集成了多种AI工具的智能创意平台，支持文本、图像和视频等多种媒体格式的协作创作。它通过提供全面的AI工具包，帮助团队实时协作，促进创意项目的构思、迭代和探索。

0

AI工具集成创意项目构思实时团队协作智能创意协作平台

NWan视频生成模型官网 – 低显存高质量视频生成

通义开源的Wan视频生成模型，显存要求超低，仅需8G显存即可运行高质量视频生成。该模型支持文生视频、图生视频、视频编辑、文生图等多种功能，是业界首个双语视频模型，能够同步生成中英字幕。

0

中英字幕生成低显存视频生成图生视频文生视频

NNBP开源项目 – 半自回归建模视频生成

NBP是一种通过半自回归建模实现视频生成的创新方法。它将生成单元从单个token升级为块（如行或帧），大幅提升生成效率。块内采用双向注意力机制，使token能够捕捉更强大的空间依赖性。此外，NBP通过并行预测多个token，推理速度提升了11倍。

0

半自回归建模视频生成快速推理提高生成效率空间依赖性捕捉

NVideoFusion开源项目 – 一站式视频批量处理工具

VideoFusion是一款开源免费的一站式视频批量处理工具，专为无经验的视频创作者设计。用户只需点击几下即可实现视频优化，无需关心复杂参数，轻松完成视频预处理。

0

AI音频降噪视频优化视频批量处理工具视频预处理

NSmolVLM2官网 – 轻量级多功能视觉模型

SmolVLM2 是一个非常小的视觉模型，提供 256M、500M、2.2B 三个版本，能够识别物体、回答问题和对视频做总结。该模型设计轻巧，适用于移动设备，如 iPhone，能够高效执行多种视觉任务。

0

物体识别移动设备应用视频总结轻量级视觉模型

NComfyUI-WanVideoWrapper开源项目 – 阿里Wan视频模型的ComfyUI适配

ComfyUI-WanVideoWrapper是一个为阿里Wan视频模型设计的ComfyUI适配工具，目前主要支持图生视频功能。它提供了强大的AI工具，用于视频生成和编辑，支持本地运行1.3B模型，并优化了内存使用，使其在处理大规模视频时更加高效。

0

AI视频生成工具ComfyUI适配工具大规模视频处理视频编辑工具

NTutorial on Diffusion Models for Imaging and Vision – 扩散模型图像视觉教程

由普渡大学Stanley H. Chan教授发布的扩散模型在图像和视觉领域的教程，详细讨论了扩散模型的基本思想，适合有意从事扩散模型研究或应用的本科生和研究生。教程内容涵盖了扩散模型的基础概念、生成工具在图像和视频生成中的应用，以及相关的学习资源。

0

图像生成工具扩散模型教程研究资源

NDiffusionstudio Agent开源项目 – AI驱动的视频编辑框架

Diffusionstudio Agent是一个面向视频编辑的框架，旨在通过人工智能技术赋予编辑过程更多自主性，使视频创作变得像说话一样简单。该框架支持自然语言指令，用户可以直接用文字描述生成视频，同时具备强大的文档搜索功能，能够快速找到所需素材。此外，Diffusionstudio Agent是开源免费的，用户可以轻松上手并在开源社区中贡献代码或获取支持。

0

AI驱动的视频编辑框架开源视频编辑工具自然语言指令生成视频

NOvis-2视觉模型官网 – 高效OCR与视觉识别

Ovis-2是一个视觉大模型，具备强大的图像和视频识别能力，尤其在OCR方面表现卓越。虽然其推理能力目前定位为辅助识别，但建议在实际使用中结合其他推理能力更强的大模型，以实现更全面的功能。

0

图像和视频识别深度推理视觉识别辅助识别

NWan2.1开源项目 – 阿里开源的大规模视频生成模型

Wan2.1是阿里开源的大规模视频生成基础模型套件，在多个基准测试中超越了现有的开源模型和商业解决方案。它支持消费级GPU，适配几乎所有消费级显卡，并支持多种任务，包括文本到视频、图像到视频、视频编辑等。

0

图像到视频文本到视频视频编辑阿里开源视频生成模型

NSkyReels-V1-Hunyuan-I2V官网 – 基于混元的图生视频模型

SkyReels-V1-Hunyuan-I2V是基于腾讯混元文生视频微调的图生视频模型，适用于comfyUI平台。该模型主要针对以人为主体的数据，能够捕捉33种独特面部表情，并拥有超过400种自然动作组合。它在开源社区中属于较为先进的图生视频模型，提供了无需充值会员的视频生成解决方案。

0

图生视频模型开源视频生成工具自然动作模拟面部表情捕捉

NStable Diffusion Video官网 – 开源文本生成视频技术

Stability公司本周推出的文本生成视频技术，完全开源，能够生成分辨率为576x1024的视频，每个视频包含14或25帧。该技术支持生成多角度视图，对3D场景有深入理解，并通过LoRA技术控制摄像头，生成高分辨率视频。

0

3D场景视频制作开源视频生成工具文本生成视频技术

NAnyV2V开源项目 – 即插即用的视频编辑框架

AnyV2V 是一个适用于任何视频到视频编辑任务的即插即用框架，能够在视频编辑中实现高外观和时间一致性。它支持广泛的视频编辑任务，并可以无缝集成现有图像编辑工具，保持与源视频的外观和运动一致性。该框架免训练，简化了视频编辑流程，支持基于提示的编辑、基于参考的风格迁移、主题驱动编辑以及人物/物体操纵等多种功能。

0

主题驱动编辑人物操纵即插即用视频编辑框架基于提示的编辑

NVideoRAG开源项目 – 超长视频理解与生成的利器

VideoRAG 是一个专为超长视频内容理解和生成设计的工具，能够在单个RTX 3090 GPU上处理数百小时的视频内容。它通过构建结构化的视频知识图谱，高效索引超长视频，并支持多模态检索，精准匹配文本与视频语义。

0

多模态检索视频内容生成视频知识图谱超长视频理解

NEverlyn-1开源项目 – 首个开源自回归视频AI模型

Everlyn-1是首个开源的自回归基础视频AI模型，为视频生成和多模态理解带来突破。它通过创新性地引入Wasserstein距离优化矢量量化，显著提升了训练稳定性和性能。同时，其提出的EfficientARV框架能够高效生成图像和视频，支持多种生成任务。此外，ANTRP技术有效减少多模态大语言模型中的幻觉现象，进一步提升生成质量。

0

多模态理解开源视频AI模型生成任务支持自回归视频生成

NAniTalker开源项目 – 通过图片和音频生成面部动画

AniTalker是一个创新的模型，通过单张图片和音频生成面部动画。与现有模型主要关注口型同步不同，AniTalker通过通用运动表示法有效捕捉面部复杂动态，包括细微表情和头部运动。该模型利用自监督学习策略，实现更精确的运动描述，并通过扩散模型生成多样且可控的面部动画。

0

影视制作动画扩散模型游戏角色表情自监督学习

NWan2.1官网 – 阿里云开源的AI视频生成模型

Wan2.1是阿里云推出的开源视频大模型，支持消费级显卡进行AI视频生成，具备140亿参数，展现出卓越的性能表现，能够处理复杂的运动和细腻的情感捕捉，适合多种视频生成任务。

0

AI视频生成模型多模态视频生成阿里云开源项目

NSpotter Studio官网 – YouTube创作者的全方位构思工具

Spotter Studio是一个创新的全合一YouTube构思平台，旨在彻底改变创作者的内容构思和制作方式。该平台专为YouTube创作者量身打造，提供全面的工具套件，简化头脑风暴、研究和规划过程。通过整合先进的数据驱动洞察和用户友好的界面，Spotter Studio帮助创作者生成更具吸引力的视频创意，最终增加观看量并提升创作过程。

0

YouTube创作者工具创意开发数据驱动洞察视频内容规划

NDragGAN官网 – 通过拖动精确控制图像生成

DragGAN通过拖动的方式对图片进行局部微调，允许用户精确控制生成图像的姿态、形状、表情和布局。它利用特征运动监督和新颖的点追踪方法，支持对各种类别的图像进行变形和操控，生成高质量、逼真的图像输出。

0

GAN技术动态图像操控图像生成工具精确图像控制

NStory-Flicks开源项目 – 一键生成高清故事短视频，让创意轻松落地！

Story-Flicks 是一个创新的工具，通过输入主题，利用 AI 大模型自动生成完整的高清故事短视频。它支持多种语言和图像生成模型，具备强大的适配性，能够满足多样化的创作需求，帮助用户轻松实现创意落地。

0

AI生成短视频自动化视频创作工具高清故事视频制作

NMyFaceSwap官网 – 一款免费的在线换脸工具

MyFaceSwap 是一款免费的在线工具，用户可以在视频和图像中进行换脸，包括成人内容。它利用 AI 技术实现无缝换脸和同步嘴型，提供一个无需水印或注册的易用平台。用户可以通过上传照片和视频来创建自己的视频内容，结果保持隐私和数据安全。

0

AI换脸在线换脸工具数据隐私保护视频内容生成

NYOLOv12官网 – 基于注意力机制的高效目标检测框架

YOLOv12是一个基于注意力机制的新框架，旨在突破传统CNN架构的局限，提高性能和计算速度。

0

YOLOv12实时检测注意力机制目标检测

NAI PPT Maker官网 – 快速生成专业幻灯片工具

AI PPT Maker是一个创新工具，可以将文档、音频和视频等多种内容快速转换为专业演示文稿。支持多种格式和语言，用户只需几秒钟便能利用成千上万的模板和主题生成演示文稿。该工具由先进的AI技术（DeepSeek和ChatGPT）驱动，为用户提供无缝的创建、编辑和分享演示文稿的体验。适用于商业会议、教育场景、客户提案和个人项目，适合广泛受众。

0

AI生成演示文稿工具AI辅助幻灯片制作快速生成幻灯片

NOmniHuman-1开源项目 – 突破性人类视频生成框架

OmniHuman-1是一个国产人类视频生成框架，首次实现单模型支持音频、视频、文本和姿态的任意组合生成视频，突破了现有方法只能单一模式生成的限制。该框架具备超长时间稳定生成能力，支持30秒以上的视频生成，通过全条件训练策略提升数据利用率，并通过大规模姿态条件数据训练，减少手部抖动和不自然现象，展现出超强的泛化能力，甚至支持非人类图像的拟人化动画。

0

人类视频生成框架低质量图像转高质量视频卡通角色动画多模态内容生成

NFigure AI官网 – 具身大模型的创新应用

Figure AI刚刚重磅发布其端到端具身大模型HELIX，旨在推动具身智能的发展。该模型通过融合世界模型的视频预训练和结合强化学习的后期训练，提供了多个功能以支持各类智能任务。

0

具身智能强化学习端到端大模型视频预训练

Deep Lake – AI Knowledge Agent官网 – 深度研究你的数据

Deep Lake AI Knowledge Agent 能够对各种类型、位置和规模的数据进行深度研究，支持多模态检索，利用视觉语言模型进行数据的摄取和检索，能够将存储在任何地方的各种数据（如PDF、图像、视频、结构化数据等）连接到AI。随着时间的推移，它会根据你的查询进行学习，定制结果以适应你的工作需求。

0

AI Knowledge AgentDeep Lake企业级数据管理多模态数据检索