史上训练最简单，音质最好的语音合成系统

懵懵懂懂的新手 2022-03-18 10:35:53

def infer(self, x, x_lengths, sid=None, noise_scale=1, length_scale=1, noise_scale_w=1., max_len=None) 大佬，请问您的推理代码里面的noise_scale, length_scale, noise_scale_w是根据什么设置的哈？？？？

懵懵懂懂的新手 2022-03-17 15:48:52

大佬，请问一下VITS这个地方的代码是不是已经封装好的，debug不了

2022-03-17 15:51:22

这块没去关注，您在逐行研究啊

懵懵懂懂的新手回复倦鳥馀花

2022-03-17 16:16:41

我主要是想看看怎么对齐的，这个好像是用的动态规划算法求最优路径。想debug一下，发现好像封装死的。您有了解这个单调对齐搜索算法吗？指导指导哈！大佬

这块没去关注，您在逐行研究啊

倦鳥馀花回复懵懵懂懂的新手

2022-03-17 16:19:15

这个我也不会啦

我主要是想看看怎么对齐的，这个好像是用的动态规划算法求最优路径。想debug一下，发现好像封装死的。您有了解这个单调对齐搜索算法吗？指导指导哈！大佬

查看更多回复...

懵懵懂懂的新手 2022-03-07 09:25:19

您好！我想请问一下，您训练的VITS模型迭代了多少epoch就可以生成比较好的合成音？

2022-03-07 10:05:04

这个问题问的专业，500+个epoch，Loss在17左右；其他人一般问训练多久，问题都是错的，哈哈

懵懵懂懂的新手回复倦鳥馀花

2022-03-07 10:15:38

好的！谢谢大佬。还有一个问题，改变您训练脚本的batch_size(您的是32，但是我用32会报GPU显存不够)，所以我改的很低(batch_size=8)，这样会不会对训练结果有很大的影响。

这个问题问的专业，500+个epoch，Loss在17左右；其他人一般问训练多久，问题都是错的，哈哈

倦鳥馀花回复懵懵懂懂的新手

2022-03-07 10:17:51

影响还是比较大，可以筛选一下句子长度，特别长的句子可以剔除

好的！谢谢大佬。还有一个问题，改变您训练脚本的batch_size(您的是32，但是我用32会报GPU显存不够)，所以我改的很低(batch_size=8)，这样会不会对训练结果有很大的影响。

懵懵懂懂的新手 2022-03-04 15:59:04

您好！请问您有训练英文模型吗？我训练的英文模型合成语音感觉有噪声？

懵懵懂懂的新手 2022-03-03 14:10:33

您好！您在训练的时候有遇到这个情况吗？

2022-03-03 14:12:08

这个应该是torch版本和cuda版本不匹配导致的

懵懵懂懂的新手回复倦鳥馀花

2022-03-03 14:15:54

不匹配吗？我用的CUDA Version: 11.0和torch==1.6.0

这个应该是torch版本和cuda版本不匹配导致的

倦鳥馀花回复懵懵懂懂的新手

2022-03-03 14:17:34

不匹配，torch1.6算老版本了，推荐cuda10.1；或者安装对应cuda的 torch,然后训练关闭FP16

不匹配吗？我用的CUDA Version: 11.0和torch==1.6.0

查看更多回复...

A

aderic 2022-03-02 15:51:40

hallo, 请问大神这个可以再加入个性化音色输出不? 比如使用机器人(赛博朋克)的声音风格输出语音

2022-03-02 15:53:02

那个是音效，使用的是数字信号处理技术实现

懵懵懂懂的新手 2022-03-02 10:59:03

./baker_waves/000021.wav|sil ^ ie3 #0 k e2 #0 ^ i3 #0 g ei3 #0 b en2 #0 ^ uei3 #0 ^ van2 #0 f an3 #0 ^ ing4 #0 ^ iou5 #0 sil eos 请问博主‘^’是什么意思？为什么做这个标志？代表后面是零声母吗？

2022-03-02 11:02:13

后面的零代表的是字之间的发音间隔，^是拼音中没有声母的空声母的占位符号

元语音 2022-03-02 10:56:48

大佬您不放写一篇文章，介绍您开源的项目。应该不会花费太长时间

2022-03-02 10:59:39

vits是原论文作者的官方开源项目，我其实没做什么，只是原项目是LJSpeech的，我适配了标贝数据集。

2022-03-02 11:05:03

我构思总结一下

元语音回复倦鳥馀花

2022-03-02 11:09:43

没关系，说不定您写的文章会大受欢迎

vits是原论文作者的官方开源项目，我其实没做什么，只是原项目是LJSpeech的，我适配了标贝数据集。

倦鳥馀花 2022-03-02 10:51:46

为什么星星这么少？因为9月份的时候，这个项目比较敏感，星星多容易出问题，所以把项目私有化了，Fork和星星都清零了。现在VITS已经被大众熟知了，就把他公开给初学者学习吧！

倦鳥馀花 2022-03-02 10:47:59

不想跑代码的可以直接听样例：https://github.com/dtx525942103/vits_chinese/blob/master/vits_样本.wav

倦鳥馀花 2022-03-02 10:41:19

基于VITS 实现 16K baker TTS 的流程记录 apt-get install espeak pip install -r requirements.txt pip install pypinyin cd monotonic_align python setup.py build_ext --inplace 将16K标贝音频拷贝到./baker_waves/，启动训练 python train.py -c configs/baker_base.json -m baker_base 两张1080卡，训练两天，基本可以使用了测试（下载预训练模型，放到logs/baker_base/目录中，修改vits_string.py加载的模型名称） python vits_strings.py 生成结果在 vits_out文件夹中