[浏览需要 0 积分] 发布于 2022-03-02 11:30:53

举世无双语音合成系统 VITS 发展历程

2021 年 6 月 11 日 VITS 论文和代码发布：
论文：Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
代码：https://github.com/jaywalnut310/vits
机构：韩国科学院
会议：ICML 2021
作者其他论文：HiFiGAN、GlowTTS

2021 年 6 月 21 日与 VITS 同架构论文：
论文：Glow-WaveGAN：Learning Speech Representations from GAN-based Variational Auto-Encoder For High Fidelity Flow-based Speech Synthesis
机构：西北工业大学，腾讯 AI 实验室
会议：INTERSPEECH 2021

2021 年 10 月 15 日 VITS 评估论文发布：
论文：ESPnet2-TTS Extending the Edge of TTS Research
代码：https://github.com/espnet/espnet/tree/master/espnet2/gan_tts/vits
机构：开源机构 ESPnet、卡梅隆大学、东京大学等
目的：对先进的语音合成系统进行评估，尤其是 VITS；ESPnet 提供的 152 个预训练模型（ASR+TTS）中有 48 为 VITS 语音合成模型：https://github.com/espnet/espnet_model_zoo/blob/master/espnet_model_zoo/table.csv

2021 年 10 月 17 日 VITS 相关论文：
论文：VISinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice Synthesis
机构：西北工业大学、网易伏羲 AI 实验室
目的：基于 VITS 实现的歌声合成系统

2021 年 12 月 4 日 VITS 相关论文：
论文：YourTTS：Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone
代码：https://edresson.github.io/YourTTS/
机构：开源机构 coqui-ai/TTS
目的：基于 VITS 实现跨语言语音合成和声音转换

2021 年 12 月 23 日语音合成专题学术论坛：
机构：CCF 语音对话与听觉专委会
在会议中，微软亚洲研究院主管研究员谭旭博士，透露基于 VITS 实现的构建录音水平的文本到语音合成系统：DelightfulTTS 2 (Blizzard Challenge 2021/Ongoing)，论文还未公开

核心要点：
1，VITS 框架包含两个子系统：基于 VAE 的变声系统以及基于 Flow 的语音合成系统；VAE 擅长捕捉句子整体的韵律特征，而 Flow 擅长重建音频的细节特征；将两者整合，进行多任务训练，实现参数与优势共享。
2，VITS 的语音合成系统直接合成音频而不是 MEL 谱，实现真正意义的端到端语音合成，而非分为两个模型（声学模型&声码器）的序列到序列的合成；从而消除两个模型带来的 Gap。
3，传统两个模型的 TTS 系统，GAN 训练通常只应用与声码器；而，VITS 中的 GAN 训练是全局的、对每个模块都有效。

默认分类

倦

浏览 (3128)