[浏览需要 0 积分] 发布于 2024-10-18 18:13:45

speech2speech

引言

在当今科技飞速发展的时代，语音机器人正逐渐成为人们生活和工作中的得力助手。语音机器人是一种利用人工智能技术，通过语音识别和语音合成等功能与人类进行交互的智能设备。
它具有诸多显著优势。首先，高度的便捷性是其一大特点。无论你是在忙碌的工作中双手被占用，还是在进行其他活动无法分心操作设备，只需通过语音指令，语音机器人就能迅速响应你的需求。其次，它具备准确性。凭借先进的语音识别技术，能够准确理解你的话语内容，即使在有噪音干扰的环境下也能保持较高的识别准确率。再者，语音机器人可以实现 24 小时不间断服务，随时为你解答问题、提供信息或执行任务。无论是查询天气、播放音乐、设置提醒，还是进行复杂的任务安排，语音机器人都能高效完成。它广泛应用于各个领域，如客服行业，能够快速回答客户的问题，提高服务效率和质量；在智能家居中，可控制各种家电设备，让你的生活更加舒适便捷。
Speech2Speech，即语音到语音的转换技术，是一种创新性的科技手段。它能够将一种语言的语音输入转换为另一种语言的语音输出，实现跨语言的交流无障碍。
这项技术的核心在于其强大的算法和模型。通过深度学习和神经网络等技术，Speech2Speech 系统可以准确地识别输入语音的内容和语言特征，然后进行翻译和语音合成，输出目标语言的语音。它为不同语言背景的人们之间的交流搭建了一座便捷的桥梁。在国际商务、旅游、学术交流等场景中，Speech2Speech 发挥着重要作用。当你身处异国他乡，与当地人交流时，无需再担心语言障碍，只需使用 Speech2Speech 技术，就可以轻松实现沟通。同时，它也在在线教育、远程会议等领域有着广阔的应用前景，为全球范围内的合作与交流提供了有力支持。

speech2speech

pipeline 形式

pipeline 形式的 speech2speech 是传统的 asr+NLP+tts 组成，有着稳定、直观、各部分可塑性强的特点，但缺点是慢，而且交互的效率低。这种方案业界相当成熟了。

CleanS2S

CleanS2S 是一个语音到语音 (S2S) 的原型智能体，提供高质量的流式交互，并采用单文件实现。其设计简洁明了，旨在提供类似 GPT-4o 风格的中文交互原型智能体。该项目希望让用户直接体验语言用户界面 (LUI) 的强大功能，并帮助研究人员快速探索和验证 S2S pipeline 的潜力。
https://github.com/opendilab/CleanS2S/

end2end 形式

SpeechGPT

SpeechGPT 由三个主要组成部分组成：离散单元提取器（Discrete Speech Unit Extractor）、大语言模型（LLM）和单元声码器（Unit Vocoder）。在这种体系结构下，LLM 可以感知多模态输入并生成多模态输出。

训练过程
SpeechGPT 经历了三个阶段的训练过程：模态适应预训练、跨模态指令微调和 chain-of-modality 指令微调。
第一阶段通过离散语音单元连续任务实现了 SpeechGPT 的语音理解能力。
第二阶段利用 SpeechInstruct 改进了模型的跨模态能力。
第三阶段利用参数高效的 LoRA 微调进行进一步的模态对齐。
https://github.com/0nutation/SpeechGPT

Mini-Omni

Mini-Omni 假设文本输出具有更高的信息密度，允许使用更少的 token 进行相同的响应。在音频标记的生成过程中，该模型有效地影响了相应的文本标记，类似于一个在线的 TTS 系统。在生成音频 token 之前，用 N 个 token 填充可以确保首先生成相应的文本 token ，从而允许其作为超参数调整。此外，Mini-Omni 还可以将说话人和风格嵌入表征作为模型的条件输入，从而便于控制说话人特征和风格元素。

训练过程：
Mini-Omni 的训练分为三个阶段。
第一阶段模态对齐的目标是增强文本模型理解和生成语音的能力，Mini-Omni 的核心模型完全冻结，仅允许两个适配器中的梯度更新。训练数据使用语音识别和语音合成数据，来训练模型的语音识别和合成能力。
第二阶段在新的模态与文本模型输入对齐后，会冻结适配器。在此阶段，重点训练模型在给定音频输入时的文本生成能力，因为音频输出仅从文本合成。这一阶段会使用语音识别、口语问答和文本响应任务的数据进行训练。
第三阶段，使用综合数据对整个模型进行微调。此时，所有模型权重都被解冻并进行训练。
https://github.com/gpt-omni/mini-omni?tab=readme-ov-file

LLaMA-Omni

与 Mini-Omini 类似集成了语音编码器、语音适配器、LLM 和流式语音解码器，以实现无缝的语音到语音通信。该模型通过编码器和适配器直接处理语音输入，然后将其输入 LLM，从而无需中间文本转录。非自回归流式 Transformer 充当语音解码器，利用连接主义时间分类来预测与语音响应相对应的离散单元。这种架构允许同时生成文本和语音输出，从而显着减少响应延迟。

训练过程：
在第一阶段，它学习从语音指令生成文本响应。
第二阶段侧重于生成语音响应，仅训练语音解码器。在推理过程中，LLaMA-Omni 同时生成文本和语音响应。当 LLM 生成文本时，语音解码器会生成相应的离散单元，然后实时将其转换为语音波形。这种方法实现了极低延迟的语音交互，用户能够在生成完整文本之前听到响应。
https://github.com/ictnlp/LLaMA-Omni

Baichun Omini

Baichuan-Omni，这是第一个高性能开源多模态大型语言模型 (MLLM)，它擅长同时处理和分析图像、视频、音频和文本的模态，同时提供先进的多模态交互体验。我们提出了一种有效的多模态训练方案，从 7B 模型开始，经过音频、图像、视频和文本模态的多模态对齐和多任务微调两个阶段。这种方法使语言模型能够有效处理视觉和音频数据。通过在各种全模态和多模态基准测试中展示出强大的性能，我们的目标是让这一贡献成为开源社区在推进多模态理解和实时交互方面的竞争基准。

https://github.com/westlake-baichuan-mllm/bc-omni

Westlake-Omni

西湖心辰推出的 Westlake-Omni 是一个开源中文情感端到端语音交互大模型，为中文语音交互技术带来了新的活力和可能性。

Westlake-Omni 的训练与优化

数据收集与预处理
为了训练出高质量的模型，Westlake - Omni 使用了大规模的中文情感语音数据集。这些数据集涵盖了各种场景、情感状态和语音风格，以确保模型能够学习到丰富多样的语音和情感模式。
在数据预处理阶段，对语音数据进行了降噪、归一化等操作，对文本数据进行了分词、词性标注等处理，以提高数据的质量和一致性。同时，还对数据进行了增强处理，通过添加噪声、变换语速等方式，增加数据的多样性，提高模型的泛化能力。
训练策略
采用了分阶段的训练策略。首先，在大规模的无监督数据上进行预训练，学习语音和文本的通用特征和模式。然后，在有监督的情感语音数据上进行微调，使模型能够更好地理解和表达情感。
在训练过程中，还应用了多种优化算法，如随机梯度下降（SGD）、Adagrad、Adadelta 等，以优化模型的参数。同时，通过调整学习率、正则化参数等超参数，来平衡模型的拟合能力和泛化能力。
模型评估与优化
为了确保模型的性能和质量，使用了多种评估指标来评估 Westlake - Omni 的性能，如语音识别准确率、情感分类准确率、语音合成自然度等。
根据评估结果，不断调整模型的结构和参数，进行优化。例如，如果发现模型在某些情感类别上的表现不佳，可以增加相应的训练数据，或者调整模型的网络结构，以提高模型对这些情感的识别和表达能力。
https://github.com/xinchen-ai/Westlake-Omni

Moshi

Moshi 基于一个从头构建的名为 Helium 的 LLM ，其依赖高质量文本数据从而提供强大的推理能力。此外，Moshi 提出了内部独白方法（Inner Monologue），这是一种联合建模文本和音频标记的训练和推理过程，使模型能够充分利用文本模态的知识，同时保持语音到语音系统的特性。为了实现实时对话，Moshi 设计为多流（multi-stream）架构，能够同时说话和听用户，无需显式建模说话者轮次。此外，为了高效高质量地捕捉用户输入音频和 Moshi 的输出语音，提出了 Mimi，一种结合语义和声学信息的神经音频编解码器，使用残差向量量化和知识蒸馏。为了联合建模 Moshi 和用户的音频流以及 Moshi 的文本标记，采用了支持流式推理的 Depth Transformer。

Mimi 以之前的神经音频编解码器（例如 SoundStream 和 EnCodec）为基础，在编码器和解码器中添加了 Transformer，并调整步幅以匹配 12.5 Hz 的整体帧速率。这使 Mimi 能够更接近文本标记的平均帧速率（~3-4 Hz），并限制 Moshi 中的自回归步骤数。与 SpeechTokenizer 类似，Mimi 使用蒸馏损失，以便第一个码本标记与 WavLM 的自监督表示相匹配，从而允许使用单个模型对语义和声学信息进行建模。有趣的是，虽然 Mimi 是完全因果和流式传输的，但它学会了足够好地匹配 WavLM 的非因果表示，而不会引入任何延迟。最后，与 EBEN 类似，Mimi 仅使用对抗性训练损失以及特征匹配，尽管比特率较低，但在主观质量方面仍表现出强劲的改善。

https://github.com/kyutai-labs/moshi

前沿动态

浏览 (2202)