GPT-SoVITS-中文语音克隆，1分钟可训练TTS模型官网

GPT-SoVITS 是一个适用于中文的语音克隆项目，能够通过短时间的语音数据训练出高质量的文本到语音（TTS）模型。仅需1分钟的语音数据即可进行有效的模型微调，支持多语言推理，并提供易于使用的Web界面，适合初学者创建和管理训练数据集。
GPT-SoVITS的特点:
1. 零样本 TTS：输入 5 秒语音样本并体验即时文本到语音转换。
2. Few-shot TTS：仅用 1 分钟的训练数据即可微调模型，以提高语音相似度和真实感。
3. 跨语言支持：用与训练数据集不同的语言进行推理，目前支持英语、日语和中文。
4. WebUI工具：集成工具包括语音伴奏分离、自动训练集分割、中文ASR和文本标注，帮助初学者创建训练数据集和GPT/SoVITS模型。

GPT-SoVITS的功能:
1. 使用5秒音频样本进行零样本文本到语音转换。
2. 使用1分钟的音频数据微调模型以克隆自己的声音。
3. 在不同语言间进行推理，支持英语、日语和中文。
4. 通过WebUI工具创建和管理训练数据集。

相关推荐

d2l-zh

这是一本开源的深度学习教科书，适合中文读者，名为《动手学深度学习》第二版，包含mxnet和PyTorch两个版本。书籍内容可运行和可讨论，已被55个国家300所大学用于教学。作者阵容强大。

Qwerty Learner-集记单词与打字练习于一体的工具

一个集记单词与打字练习为一体的工具，内置多种词库，通过键盘输入帮助用户在背诵单词的同时练习打字。

open_source_chatgpt_list

这个开源项目的目的是实现和扩展ChatGPT及其类似模型，旨在开发与机器学习相关的技术。

AutoSurveyGPT-学术研究的智能助手

AutoSurveyGPT是一个面向学术研究者的工具，旨在提供关键词生成、搜索结果解析和摘要分析等功能，帮助研究者更高效地找到相关文献和研究方向。它利用OpenAI的技术，为用户提供相关性评分和递归搜索功能，最终生成包含相关论文和评分的报告。

Cold Compress-开源轻量级缓存压缩工具

Cold Compress是一个开源轻量工具包，旨在创建和基准测试基于GPT-Fast的缓存压缩方法，支持自定义和扩展KV缓存压缩技术，提供灵活的解决方案以优化数据存储和访问效率。

线性代数的艺术可视化图释中文版-通过视觉化帮助学习线性代数

本项目是Gilbert Strang的《Linear Algebra for Everyone》的图形化笔记，旨在通过视觉化的方式帮助学习线性代数的概念。

gorilla/mux-强大的Go语言路由器

Gorilla Mux 是一个强大的路由器和调度程序，专为 Go 语言编写，支持 HTTP 请求的多种匹配方式，能够处理动态路由，支持正则表达式和中间件，方便开发者管理路由和请求。

Anime2SD-自动化动漫截图数据集构建工具

Anime2SD是一个自动化的动漫截图管道，旨在帮助用户构建用于文本到图像模型训练的数据集，具有高效性和灵活性。它能够从动漫及其他来源自动生成和处理截图，极大地简化了数据准备的过程。

NPrajna-构建智能化AI基础设施的开源语言

Prajna是一种专门为构建更加模块化、自动化和智能化的人工智能基础设施而研发的开源编程语言，旨在提高AI系统的开发效率与灵活性，促进AI技术的广泛应用与创新。

ollama-ebook-summary-长文本自动总结工具

一个专门用于长文本总结的LLM工具，可以将电子书或PDF自动分段处理并生成详细的要点总结。支持epub和pdf格式，能自动提取章节，将文本分成~2000 token的小块进行处理，最终生成结构化的笔记和总结，特别适合学习研究和知识整理。

NNeRF-HuGS-改进的动态场景神经辐射场

NeRF-HuGS是一个用于非静态场景的改进神经辐射场项目，利用启发式引导的分割技术，提升动态环境下的场景渲染效果。

autolabel

Autolabel是一个开源项目，主要提供Python库，用于自动标注、清洗和丰富文本数据集。该项目的目标是为机器学习提供大规模、干净、多样化的标注数据，并且具有高精度、低成本和快速启动的特点。它利用大型语言模型（LLM）来执行标注、清洗和丰富文本数据集的任务。该项目由refuel-ai在GitHub上进行维护。

Fooocus

AI画图软件Fooocus是一个开源项目，它集成了Stable Diffusion和Midjourney的特点。它具有新图像生成、离线使用、开源、免费使用、简化操作等功能。用户可以通过输入提示词工程生成想要的图像，并且无需依赖网络连接。该软件是免费的，并且用户可以自由查看和修改源代码。用户可以在指定的项目地址中找到和获取该软件，它具有简单易用和多种功能的特点，主要用于AI出图。

jupyterlab-desktop

JupyterLab是一个开源项目，提供了桌面版本，方便用户一键安装。它还引入了Jupyter_ai，使得JupyterLab成为备受依赖的工具。

bark-本地网络的实时同步音频流

bark 是一款用于在本地网络中实现实时音频同步的工具，能够低延迟地将音频流媒体传输到多个设备，设置简单，使用方便，非常适合家庭和聚会场合的音频共享需求。

ocrmac-将 macOS OCR 能力封装为Python库

ocrmac 是一个用于从 Mac 系统上的图像中提取文本的 Python 封装库，利用 Apple 系统的视觉框架，能够高效地识别并提取图像中的文本内容。该库专为 macOS 10.15 及以上版本设计，能够提供文本的置信度和边框信息，方便开发者在应用程序中集成 OCR 功能。

VLog

这个开源项目VLog可以将视频转化为长文档，同时支持对文档进行提问和对话，主要使用的技术包括ChatGPT、BLIP2、GRIT、Whisper和LangChain。与之前推荐的MiniGPT O类似，但实现了多模态。

NMusic LLM-高效的音乐生成与文本转语音系统

基于 PyTorch 的音乐生成和文本到语音（TTS）系统的实现，该系统使用基于 LLaMA 的大型语言模型（LLMs），并支持在单个 RTX 4090 GPU 上少于 10 小时内训练音乐生成模型

暂无评论

暂无评论...