17条评论
wyx
大神您好, 和您请教一下「sil k a2 #0 ^ er2 #0 」这里的sil k 和#0分别代表什么呢 以及「卡尔普#2陪外孙#1玩滑梯#4 」这里的#2 #4分别代表什么呢? 语音小白,还请赐教
点赞
评论
韵律,可以认为是不同时长的停顿。
点赞
评论
懵懵懂懂的新手
def infer(self, x, x_lengths, sid=None, noise_scale=1, length_scale=1, noise_scale_w=1., max_len=None) 大佬,请问您的推理代码里面的noise_scale, length_scale, noise_scale_w是根据什么设置的哈????
点赞
评论
懵懵懂懂的新手
大佬,请问一下VITS这个地方的代码是不是已经封装好的,debug不了
点赞
评论
这块没去关注,您在逐行研究啊
点赞
评论
我主要是想看看怎么对齐的,这个好像是用的动态规划算法求最优路径。想debug一下,发现好像封装死的。您有了解这个单调对齐搜索算法吗?指导指导哈!大佬
这块没去关注,您在逐行研究啊
点赞
评论
这个我也不会啦
我主要是想看看怎么对齐的,这个好像是用的动态规划算法求最优路径。想debug一下,发现好像封装死的。您有了解这个单调对齐搜索算法吗?指导指导哈!大佬
点赞
评论
懵懵懂懂的新手
您好!我想请问一下,您训练的VITS模型迭代了多少epoch就可以生成比较好的合成音?
点赞
评论
这个问题问的专业,500+个epoch,Loss在17左右;其他人一般问训练多久,问题都是错的,哈哈
点赞
评论
好的!谢谢大佬。还有一个问题,改变您训练脚本的batch_size(您的是32,但是我用32会报GPU显存不够),所以我改的很低(batch_size=8),这样会不会对训练结果有很大的影响。
这个问题问的专业,500+个epoch,Loss在17左右;其他人一般问训练多久,问题都是错的,哈哈
点赞
评论
影响还是比较大,可以筛选一下句子长度,特别长的句子可以剔除
好的!谢谢大佬。还有一个问题,改变您训练脚本的batch_size(您的是32,但是我用32会报GPU显存不够),所以我改的很低(batch_size=8),这样会不会对训练结果有很大的影响。
点赞
评论
懵懵懂懂的新手
您好!请问您有训练英文模型吗?我训练的英文模型合成语音感觉有噪声?
点赞
评论
懵懵懂懂的新手
您好!您在训练的时候有遇到这个情况吗?
点赞
评论
这个应该是torch版本和cuda版本不匹配导致的
点赞
评论
不匹配吗?我用的CUDA Version: 11.0和torch==1.6.0
这个应该是torch版本和cuda版本不匹配导致的
点赞
评论
不匹配,torch1.6算老版本了,推荐cuda10.1;或者安装对应cuda的 torch,然后训练关闭FP16
不匹配吗?我用的CUDA Version: 11.0和torch==1.6.0
点赞
评论
aderic
hallo, 请问大神这个可以再加入个性化音色输出不? 比如使用机器人(赛博朋克)的声音风格输出语音
点赞
评论
那个是音效,使用的是数字信号处理技术实现
点赞 1
评论
懵懵懂懂的新手
./baker_waves/000021.wav|sil ^ ie3 #0 k e2 #0 ^ i3 #0 g ei3 #0 b en2 #0 ^ uei3 #0 ^ van2 #0 f an3 #0 ^ ing4 #0 ^ iou5 #0 sil eos 请问博主‘^’是什么意思?为什么做这个标志?代表后面是零声母吗?
点赞
评论
后面的零代表的是字之间的发音间隔,^是拼音中没有声母的空声母的占位符号
点赞
评论
METASPEECH
METASPEECH
大佬您不放写一篇文章,介绍您开源的项目。应该不会花费太长时间
点赞
评论
vits是原论文作者的官方开源项目,我其实没做什么,只是原项目是LJSpeech的,我适配了标贝数据集。
点赞
评论
我构思总结一下
点赞
评论
METASPEECH
没关系,说不定您写的文章会大受欢迎
vits是原论文作者的官方开源项目,我其实没做什么,只是原项目是LJSpeech的,我适配了标贝数据集。
点赞
评论
倦鳥馀花
为什么星星这么少?因为9月份的时候,这个项目比较敏感,星星多容易出问题,所以把项目私有化了,Fork和星星都清零了。现在VITS已经被大众熟知了,就把他公开给初学者学习吧!
点赞
评论
倦鳥馀花
不想跑代码的可以直接听样例:https://github.com/dtx525942103/vits_chinese/blob/master/vits_样本.wav
点赞
评论
倦鳥馀花
基于VITS 实现 16K baker TTS 的流程记录 apt-get install espeak pip install -r requirements.txt pip install pypinyin cd monotonic_align python setup.py build_ext --inplace 将16K标贝音频拷贝到./baker_waves/,启动训练 python train.py -c configs/baker_base.json -m baker_base 两张1080卡,训练两天,基本可以使用了 测试 (下载预训练模型,放到logs/baker_base/目录中,修改vits_string.py加载的模型名称) python vits_strings.py 生成结果在 vits_out文件夹中
点赞
评论
倦鳥馀花
预训练模型:https://github.com/dtx525942103/vits_chinese/issues/3,可以直接使用,方便评估性能
点赞 1
评论
comever
大哥,这个链接没有啊,能否再给各链接,比如网盘之类
点赞
评论
倦鳥馀花
https://mp.weixin.qq.com/s/eoviPIPkmd4cI9nEXdxrhA 论文分享 | VITS: 基于条件变分自编码器和对抗学习的端到端语音合成模型 语音杂谈 2022-01-07 18:00 以下文章来源于智能语音新青年 ,作者ttslr,评价VITS为 “举世无双”
点赞 1
评论
METASPEECH
我不太相信,除非大佬您能出一个教程,把我教懂如何搭建您说的框架
点赞
评论
项目里面有中文预训练模型,可以直接使用
我不太相信,除非大佬您能出一个教程,把我教懂如何搭建您说的框架
点赞
评论
betciso
betciso
牛掰
点赞
评论
METASPEECH
METASPEECH
大佬您这个可以在meta-speech网站介绍下使用流程吗?
点赞
评论
AI柠檬
AI柠檬
这个是你开源的么?可以简单介绍一下吗?
点赞
评论
vits是目前音质效果最好的语音合成系统,ESPNet里面也支持了VITS,这个版本是VITS原始版本之上实现的中文TTS,代码比ESPNet简洁很多;vits对语音合成初学者也很友好,避免走许多弯路。
点赞
评论
METASPEECH
大佬,可以提供些教程啥的吗?baseline教程,开设TTS代码系列
vits是目前音质效果最好的语音合成系统,ESPNet里面也支持了VITS,这个版本是VITS原始版本之上实现的中文TTS,代码比ESPNet简洁很多;vits对语音合成初学者也很友好,避免走许多弯路。
点赞
评论