gen-cv-文本转语音头像项目官网

微软的文本转语音头像项目，允许用户通过文本输入创建会说话的头像视频，构建实时交互式机器人。
gen-cv的特点:
1. 支持生成2D逼真化身说话的合成视频
2. 基于人类视频录制样本的深度神经网络模型
3. 集成文本分析器、TTS音频合成器和TTS头像视频合成器
4. 可使用预构建或自定义头像
5. 适用于培训视频和演示视频等多种场景

gen-cv的功能:
1. 输入文本到文本分析器生成音素序列
2. 使用TTS音频合成器合成语音
3. 通过神经文本转语音Avatar模型生成唇同步图像
4. 创建富含交互式头像的应用程序

相关推荐

nano-sparse-attention-一个教育性的稀疏注意力机制实现库

一个教育性的稀疏注意力机制实现库，专注于LLM推理的优化，提供多种注意力模式及其详细教程，旨在帮助用户理解和应用稀疏注意力技术。

LLaMA.go-纯Go实现的LLaMA模型

LLaMA.go是一个LLaMA模型的纯Go实现，类似于llama.cpp，但完全用Go编写。

CSTS-中文自然语言推理与语义相似度数据集

CSTS是一个专为中文设计的自然语言推理与语义相似度数据集，包含多种推理场景，提供丰富的标注数据，旨在支持机器学习和深度学习模型的训练，帮助提升中文文本的理解和处理能力。

engblogs-自动获取科技新闻摘要

engblogs项目从各大科技公司的RSS源获取数据，利用gpt-3.5生成简要摘要，并将生成的数据存储在supabase中。

Gah-便捷安装GitHub应用的工具

Gah是一个无需管理员权限即可安装GitHub应用的便捷工具，支持自动选择匹配当前平台的应用程序版本，适用于Linux和MacOS系统。

NRebuff-新型语言模型提示防注入系统

Rebuff是一个还处于原型阶段的新型语言模型提示防注入系统，具有四层防护机制，包括启发式过滤、基于LLM的检测、向量数据库和Canary tokens。

Mentat-开源的 GPT-4 编码助手

一款由 GPT-4 支持的开源编码助手，能够在命令行中运行，为项目提供上下文并协调多个文件的编辑。

NData Management for LLM-针对LLM的训练数据管理探索

该项目汇集了针对大型语言模型的训练数据管理的研究，包括与预训练、数据质量和领域构成相关的资源。

Clipper-命令行HTML到Markdown转换器和爬虫工具

命令行的HTML到Markdown转换器和网络爬虫工具，可以用来从网页剪辑内容并将其转换为Markdown格式，非常适合个人归档或笔记记录。

NPangolin Desktop-跨平台的现代桌面环境

Pangolin Desktop是为Fuchsia和Linux平台开发的桌面环境，使用Flutter构建，具备现代化的用户界面和高度的可定制性。

open-tts-tracker-开源TTS项目的收集与比较

open-tts-tracker是一个专注于收集和比较各类开源文本转语音（TTS）项目的平台，旨在为用户提供最新的TTS模型信息和性能比较，帮助用户选择合适的TTS工具。该项目支持多种语言的文本转语音，拥有用户友好的界面，并且持续更新项目列表，确保信息的时效性。

Animated Drawings-让绘画作品动起来的AI工具

一个使用人工智能技术让绘画作品动起来的工具，用户可以在线编辑绘画作品中的人物动作，生成动图。该项目能够识别简笔画中的骨骼结构，将静态图像转换为动态动画，非常适合儿童绘画作品的动画化，旨在促进儿童的创新和创造力。

NXiYan-SQL-自然语言转SQL的集成框架

XiYan-SQL是一个针对自然语言转SQL任务的多生成器集成框架，旨在提高大型语言模型在生成SQL查询方面的性能。它通过整合多种生成器，优化文本到SQL的转换准确性，并兼容多种数据库，提供用户友好的接口，适用于各种场景。

DragGAN

这个开源项目通过AI技术创造个性化的艺术品，旨在提高消费品质量并创造独特的艺术品。该项目已经在Colab上试玩，并包含各种好玩的AI应用。用户可以在网页链接上尝试应用，并将其上架到应用市场供使用。该项目还支持使用Colab进行试玩，是一个集成了各种好玩的AI应用的平台。

SmolLM2-轻量级语言模型，适合多种设备

SmolLM2是一款轻量级语言模型，提供135M、360M和1.7B参数版本，特别适合在各种设备上运行。该模型能够处理多种自然语言处理任务，具有体积小、速度快的特点，非常适合边缘计算和移动设备应用。

NAutoGluon Assistant-强大的零代码机器学习助手

强大的零代码机器学习助手，将AutoGluon的自动化机器学习能力与大语模结合，用户只需使用自然语言描述问题并提供数据，即可获得高精度的ML解决方案。

NPandaETL-无需编程的数据提取与转换工具

PandaETL是一个无需编程的ETL（提取、转换、加载）工具，能够从PDF、电子邮件、网站、音频文件等多种文档中提取和解析数据。它提供直观的界面和强大的后端支持，使得数据提取和转换变得简单易用，同时集成了AI和NLP技术，提高了数据解析的准确性，适合各种用户群体。

Zero-简洁高效的Python微服务框架

Zero是一个简单、快速、高性能且低延迟的Python框架，适用于构建微服务或分布式服务器，支持RPC和PubSub功能。

暂无评论

暂无评论...