发布于

举世无双语音合成系统 VITS 发展历程

2021 年 6 月 11 日 VITS 论文和代码发布:
论文:Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
代码:https://github.com/jaywalnut310/vits
机构:韩国科学院
会议:ICML 2021
作者其他论文:HiFiGAN、GlowTTS

2021 年 6 月 21 日 与 VITS 同架构论文:
论文:Glow-WaveGAN:Learning Speech Representations from GAN-based Variational Auto-Encoder For High Fidelity Flow-based Speech Synthesis
机构:西北工业大学,腾讯 AI 实验室
会议:INTERSPEECH 2021

2021 年 10 月 15 日 VITS 评估论文发布:
论文:ESPnet2-TTS Extending the Edge of TTS Research
代码:https://github.com/espnet/espnet/tree/master/espnet2/gan_tts/vits
机构:开源机构 ESPnet、卡梅隆大学、东京大学等
目的:对先进的语音合成系统进行评估,尤其是 VITS;ESPnet 提供的 152 个预训练模型(ASR+TTS)中有 48 为 VITS 语音合成模型:https://github.com/espnet/espnet_model_zoo/blob/master/espnet_model_zoo/table.csv

2021 年 10 月 17 日 VITS 相关论文:
论文:VISinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice Synthesis
机构:西北工业大学、网易伏羲 AI 实验室
目的:基于 VITS 实现的歌声合成系统

2021 年 12 月 4 日 VITS 相关论文:
论文:YourTTS:Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone
代码:https://edresson.github.io/YourTTS/
机构:开源机构 coqui-ai/TTS
目的:基于 VITS 实现跨语言语音合成和声音转换

2021 年 12 月 23 日 语音合成专题学术论坛:
机构:CCF 语音对话与听觉专委会
在会议中,微软亚洲研究院主管研究员谭旭博士,透露基于 VITS 实现的构建录音水平的文本到语音合成系统:DelightfulTTS 2 (Blizzard Challenge 2021/Ongoing),论文还未公开

核心要点:
1,VITS 框架包含两个子系统:基于 VAE 的变声系统以及基于 Flow 的语音合成系统;VAE 擅长捕捉句子整体的韵律特征,而 Flow 擅长重建音频的细节特征;将两者整合,进行多任务训练,实现参数与优势共享。
2,VITS 的语音合成系统直接合成音频而不是 MEL 谱,实现真正意义的端到端语音合成,而非分为两个模型(声学模型&声码器)的序列到序列的合成;从而消除两个模型带来的 Gap。
3,传统两个模型的 TTS 系统,GAN 训练通常只应用与声码器;而,VITS 中的 GAN 训练是全局的、对每个模块都有效。

浏览 (1759)
点赞 (5)
收藏
1条评论
METASPEECH
METASPEECH
大佬能否介绍下您运行VITS的流程,我们也学习下。
点赞
评论
可以,我总结一下
点赞
评论
METASPEECH
牛牛
可以,我总结一下
点赞
评论