[浏览需要 0 积分] 发布于 2024-12-26 16:46:45

【TR】TouchTTS: An Embarrassingly Simple TTS Framework that Everyone Can Touch

众所周知，基于大型语言模型（LLM）的系统对数据的需求很大。最近基于 LLM 的 TTS 研究通常采用复杂的数据处理流程来获取高质量的训练数据。这些复杂的流程在每个阶段都需要出色的模型（例如，语音去噪、语音增强、说话人分离和标点模型），这些模型本身需要高质量的训练数据，而且很少是开源的。即使有了最先进的模型，仍然存在问题，如背景噪声去除不完全和标点符号与实际语音停顿之间的错位。此外，严格的筛选策略通常只保留原始数据的 10-30%，这严重阻碍了数据扩展的努力。在这项工作中，我们利用一个抗噪声的音频分词器（S3Tokenizer）设计了一个简化但有效的 TTS 数据处理流程，该流程在保持数据质量的同时大幅降低了数据获取成本，实现了超过 50% 的数据保留率。除了数据扩展挑战之外，基于 LLM 的 TTS 系统相比于传统方法也会产生更高的部署成本。当前系统通常仅使用 LLM 进行文本到令牌的生成，而需要单独的模型（例如，流匹配模型）来进行令牌到波形的生成，这些模型不能直接由 LLM 推理引擎执行，进一步增加了部署的复杂性。为了解决这些挑战，我们消除了 LLM 和流组件中的冗余模块，用 LLM 架构替换了流模型的主干。在这个简化的流主干之上，我们提出了一个统一的架构，用于流式和非流式推理，显著降低了部署成本。最后，我们探索了使用相同的数据训练 TTS 和 ASR 任务的可行性，这得益于简化的流程和 S3Tokenizer，后者降低了 TTS 训练数据的质量要求。

语音 #语音 #语音合成 #TouchTTS

浏览 (820)