Speech
[浏览需要 0 积分] 发布于

【TR】TouchTTS: An Embarrassingly Simple TTS Framework that Everyone Can Touch

论文链接

众所周知,基于大型语言模型(LLM)的系统对数据的需求很大。最近基于 LLM 的 TTS 研究通常采用复杂的数据处理流程来获取高质量的训练数据。这些复杂的流程在每个阶段都需要出色的模型(例如,语音去噪、语音增强、说话人分离和标点模型),这些模型本身需要高质量的训练数据,而且很少是开源的。即使有了最先进的模型,仍然存在问题,如背景噪声去除不完全和标点符号与实际语音停顿之间的错位。此外,严格的筛选策略通常只保留原始数据的 10-30%,这严重阻碍了数据扩展的努力。在这项工作中,我们利用一个抗噪声的音频分词器(S3Tokenizer)设计了一个简化但有效的 TTS 数据处理流程,该流程在保持数据质量的同时大幅降低了数据获取成本,实现了超过 50% 的数据保留率。除了数据扩展挑战之外,基于 LLM 的 TTS 系统相比于传统方法也会产生更高的部署成本。当前系统通常仅使用 LLM 进行文本到令牌的生成,而需要单独的模型(例如,流匹配模型)来进行令牌到波形的生成,这些模型不能直接由 LLM 推理引擎执行,进一步增加了部署的复杂性。为了解决这些挑战,我们消除了 LLM 和流组件中的冗余模块,用 LLM 架构替换了流模型的主干。在这个简化的流主干之上,我们提出了一个统一的架构,用于流式和非流式推理,显著降低了部署成本。最后,我们探索了使用相同的数据训练 TTS 和 ASR 任务的可行性,这得益于简化的流程和 S3Tokenizer,后者降低了 TTS 训练数据的质量要求。

浏览 (441)
点赞 (2)
收藏
评论