10月
08
2024
强大的少样本语音转换与语音合成Web用户界面
鏡像:https://hf-mirror.com/lj1995/GPT-SoVITS-windows-package/tree/main
123盘:https://www.123pan.com/s/RiyA-LjS03
夸克网盘:https://pan.quark.cn/s/f9791f6790d3
百度网盘:https://pan.baidu.com/s/1xUXd9vVHR11sjJ6wCVuwHQ?pwd=hjhj 提取码: hjhj
零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语、韩语、粤语和中文。
WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。
GPT-SoVITS是花儿不哭大佬研发的低成本AI音色克隆软件。目前只有TTS(文字转语音)功能,将来会更新变声功能。
GPT-SoVITS的正确缩写应该是GSV,请不要用sovits来简称它,这会让人把它和So-VITS-SVC搞混,两者并没有什么关系
这篇文档是bilibili@白菜工厂1145号员工编写的GPT-SoVITS一站式用户手册(持续更新中,可以去B站催更)
项目地址:https://github.com/RVC-Boss/GPT-SoVITS
zero shot试用:https://gsv-zs.acgnai.top/&https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2
TTS(Text-To-Speech)这是一种文字转语音的语音合成。类似的还有SVC(歌声转换)、SVS(歌声合成)等。目前GPT-SoVITS只有TTS功能,也就是不能唱歌。
GPT-SoVITS-V1实现了:
由参考音频的情感、音色、语速控制合成音频的情感、音色、语速
可以少量语音微调训练,也可不训练直接推理
可以跨语种生成,即参考音频(训练集)和推理文本的语种为不同语种
GPT-SoVITS-V2新增特点:
对低音质参考音频合成出来音质更好
底模训练集增加到5k小时,zero shot性能更好音色更像,所需数据集更少
增加韩粤两种语言,中日英韩粤5个语种均可跨语种合成
更好的文本前端:持续迭代更新。V2中英文加入多音字优化。