分享传递知识

用5秒的声音就能模仿任何人说话?GPT-SoVITS-WebUI让你体验神奇的语音转换技术!

你是否曾经想过,如果你能用你喜欢的明星、名人或者朋友的声音说出你想说的话,那会是一种什么样的体验?你是否曾经想过,如果你能用一种你不会的语言说出你想说的话,那会是一种什么样的感觉?你是否曾经想过,如果你能用一段很短的语音就能训练出一个能够模仿你的声音的模型,那会是一种什么样的技术?如果你对这些问题感兴趣,那么你一定要关注一个开源的声音转换和文本到语音的网络界面,它就是GPT-SoVITS-WebUI。今天,我们就来为您介绍这个项目,让您了解这个让你玩转语音的开源项目。

GPT-SoVITS-WebUI项目介绍

GPT-SoVITS-WebUI是一个基于GPT和SoVITS的声音转换和文本到语音的网络界面,它可以实现零样本和少样本的语音合成和模仿,支持英语、日语和中文。它的功能有以下几点:

GPT-SoVITS-WebUI

1、零样本TTS:

只需输入5秒的声音样本,就可以体验即时的文本到语音转换,无需训练任何模型,就可以模仿任何人的声音说出你想说的话。比如,你可以用星爷的声音说出“做人如果没有理想,那跟咸鱼有什么分别!”,或者用胡歌的声音说出“所谓出人头地,就是被人教训的过程。”,或者用任何你喜欢的声音说出任何你想说的话。

2、少样本TTS:

只需1分钟的训练数据,就可以微调模型,以提高语音相似度和真实感。模仿出来的声音会更加接近原声,听起来更自然。比如,你可以用你自己的声音录制一段语音,然后用GPT-SoVITS-WebUI微调模型,就可以生成一个能够模仿你的声音的TTS模型,然后你可以用这个模型说出任何你想说的话,或者用它来制作你自己的语音书、语音日记、语音博客等。
跨语言支持:

使用与训练数据集不同的语言进行推理,目前支持英语、日语和中文。你可以用一种语言的语音样本,来说出另一种语言的文本,无需担心语音的语调、语气、语速等问题。比如,你可以用英语的语音样本,来说出日语的文本,或者用中文的语音样本,来说出英语的文本,或者用任何你想要的语言组合,来说出任何你想说的话。

3、WebUI工具:

集成了一些方便的工具,包括语音伴奏分离、自动训练集分割、中文ASR和文本标注,帮助初学者创建训练数据集和GPT/SoVITS模型。你可以用这些工具来处理你的语音文件,提取出干净的语音,切分出合适的语音片段,转换出对应的文本,标注出语音的属性,然后用这些数据来训练你自己的模型,或者用它们来测试已有的模型。
想象一下,如果你有了GPT-SoVITS-WebUI,你可以做很多有趣的事情,比如:

  1. 你可以用你喜欢的明星、名人或者朋友的声音,给你的亲友发送一些祝福、恶搞或者表白的语音消息,让他们感到惊喜、好笑或者感动。
  2. 你可以用一种你不会的语言,给你的外国朋友或者客户发送一些问候、交流或者商务的语音消息,让他们感到亲切、友好或者专业。
  3. 你可以用你自己的声音,制作一些有价值、有意义或者有创意的语音内容,比如语音书、语音日记、语音博客、语音课程、语音广告等,让更多的人听到你的声音,分享你的知识、经验或者想法。

这些都是GPT-SoVITS-WebUI可以帮你实现的功能,你是否觉得很神奇,很有趣,很有用呢?

GPT-SoVITS-WebUI是基于GPT和SoVITS的声音转换和文本到语音的网络界面,那么,GPT和SoVITS分别是什么呢?

GPT是一种基于Transformer的自回归语言模型,它可以通过大量的文本数据进行预训练,然后通过不同的任务数据进行微调,实现各种自然语言处理的任务,比如文本生成、文本摘要、文本分类等。GPT的特点是它可以生成连贯、流畅、有逻辑的文本,而且可以根据上下文和输入的文本进行动态调整,生成不同的文本。GPT的最新版本是GPT-4,它是目前最大的语言模型,它有1750亿个参数,可以处理45TB的文本数据。GPT-4可以生成各种类型的文本,比如新闻、小说、对话、诗歌、代码等,而且可以根据不同的前缀、后缀、关键词、风格等条件,生成不同的文本。GPT-3的性能已经超越了许多人类的水平,比如在阅读理解、自然语言推理、摘要生成等任务上,都达到了接近或超过人类的水平。

SoVITS是一种基于Transformer的非自回归语音合成模型,它可以通过少量的语音数据进行训练,然后通过文本和语音的对齐,实现高质量的语音合成和模仿。SoVITS的特点是它可以生成自然、清晰、有表情的语音,而且可以根据不同的语音属性,生成不同的语音,比如音高、音速、音量、音色等。SoVITS的性能已经超越了许多传统的语音合成模型,比如在语音相似度、语音自然度、语音清晰度等指标上,都达到了很高的水平。

GPT-SoVITS-WebUI是基于GPT和SoVITS的声音转换和文本到语音的网络界面,它可以利用GPT的强大的文本生成能力,和SoVITS的强大的语音合成能力,实现零样本和少样本的语音合成和模仿,支持英语、日语和中文。它的原理是,首先用GPT根据输入的文本生成一个语音的潜在表示,然后用SoVITS根据输入的语音样本生成一个语音的潜在表示,最后用SoVITS根据两个潜在表示生成一个目标语音。这样,就可以实现用任何人的声音说出任何文本的效果,而且可以跨语言进行语音转换和文本到语音。

GPT-SoVITS-WebUI不仅是一个有趣的玩具,也是一个有用的工具,它可以应用在很多场景中,比如:

语音克隆:

如果你想用你喜欢的声音来表达你的想法,或者给你的亲友送上一份特别的礼物,你可以用GPT-SoVITS-WebUI来克隆他们的声音,然后用他们的声音说出你想说的话。比如,你可以用你父母的声音,给他们送上一段祝福的语音,让他们感受到你的心意;或者你可以用你偶像的声音,给你的朋友送上一段恶搞的语音,让他们笑翻天。

语音翻译:

如果你想用一种你不会的语言来沟通,或者给你的外国朋友或客户留下一个好印象,你可以用GPT-SoVITS-WebUI来翻译你的语音,然后用目标语言的声音说出你想说的话。比如,你可以用英语的语音样本,来说出中文的文本,或者用中文的语音样本,来说出英语的文本,或者用任何你想要的语言组合,来说出任何你想说的话。

语音内容创作:

如果你想用你自己的声音来创作一些有价值、有意义或者有创意的语音内容,比如语音书、语音日记、语音博客、语音课程、语音广告等,你可以用GPT-SoVITS-WebUI来生成你自己的TTS模型,然后用这个模型说出你想说的话,或者用它来制作你自己的语音内容。比如,你可以用你自己的声音录制一段语音,然后用GPT-SoVITS-WebUI微调模型,就可以生成一个能够模仿你的声音的TTS模型,然后你可以用这个模型说出任何你想说的话,或者用它来制作你自己的语音书、语音日记、语音博客等。

这些都是GPT-SoVITS-WebUI可以帮你实现的应用场景,你是否觉得很实用,很有价值,很有潜力呢?

GPT-SoVITS-WebUI是一个基于GPT和SoVITS的声音转换和文本到语音的网络界面,它可以实现零样本和少样本的语音合成和模仿,支持英语、日语和中文。它不仅是一个有趣的玩具,也是一个有用的工具,它可以应用在很多场景中,比如语音克隆、语音翻译、语音内容创作等。

安装教程

环境准备

如果你是Windows用户(已在win>=10上测试),可以直接通过预打包文件安装。只需下载预打包文件,解压后双击go-webui.bat即可启动GPT-SoVITS-WebUI。

测试通过的Python和PyTorch版本

  • Python 3.9、PyTorch 2.0.1和CUDA 11
  • Python 3.10.13, PyTorch 2.1.2和CUDA 12.3
  • Python 3.9、Pytorch 2.3.0.dev20240122和macOS 14.3(Apple 芯片,MPS)

注意: numba==0.56.4 需要 python<3.11

Mac 用户

如果你是Mac用户,请使用以下命令安装:

创建环境

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits

安装依赖

pip install -r requirements.txt
pip uninstall torch torchaudio
pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

注意:如需使用UVR5进行预处理,建议下载原项目GUI,勾选GPU运行。另外,使用Mac推理时可能存在内存泄漏问题,重启推理UI即可释放内存。

使用Conda快速安装

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

手动安装包

Pip包

pip install -r requirements.txt

FFmpeg

Conda 使用者
conda install ffmpeg
Ubuntu/Debian 使用者
sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge 'ffmpeg<7'
MacOS 使用者
brew install ffmpeg
Windows 使用者

下载并将 ffmpeg.exe 和 ffprobe.exe 放置在 GPT-SoVITS 根目录下。

在 Docker 中使用

docker-compose.yaml 设置

  1. 环境变量:
  • is_half: 半精度/双精度控制。在进行 “SSL extracting” 步骤时如果无法正确生成 4-cnhubert/5-wav32k 目录下的内容时,一般都是它引起的,可以根据实际情况来调整为True或者False。
  1. Volume设置,容器内的应用根目录设置为 /workspace。 默认的 docker-compose.yaml 中列出了一些实际的例子,便于上传/下载内容。
  2. shm_size:Windows下的Docker Desktop默认可用内存过小,会导致运行异常,根据自己情况酌情设置。
  3. deploy小节下的gpu相关内容,请根据您的系统和实际情况酌情设置。

通过 docker compose运行

docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-DockerTest\output:/workspace/output --volume=G:\GPT-SoVITS-DockerTest\logs:/workspace/logs --volume=G:\GPT-SoVITS-DockerTest\SoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9870:9870 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:dev-20240123.03

预训练模型

从 GPT-SoVITS Models 下载预训练模型,并将它们放置在 GPT_SoVITS\pretrained_models 中。

对于中文自动语音识别(另外),从 Damo ASR ModelDamo VAD Model, 和 Damo Punc Model 下载模型,并将它们放置在 tools/damo_asr/models 中。

对于UVR5(人声/伴奏分离和混响移除,另外),从 UVR5 Weights 下载模型,并将它们放置在 tools/uvr5/uvr5_weights 中。

 

Windows下一件安装包:prezip
链接地址:https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true

官方站点:https://github.com/RVC-Boss/GPT-SoVITS?tab=readme-ov-file

中国地区用户可使用AutoDL云端镜像进行体验:https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official

安装参考:https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

 

长空雪


关注公众号『长空雪』

搬孕工 分享孕妇写真 关注我微信公众号 长空雪 “情而不色”是我公众号的风格

赞(0) 打赏

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续给力更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫打赏

微信扫一扫打赏