- [浏览需要 0 积分] 发布于2022-05-14 11:37:49
端到端语音识别-01-田正坤
论文优势: (1)CTC 模型介绍 (2)基础 Attention 模型 (3)Encoder 模型探讨 (4)软、硬 Attention 机制 (5)多任务学习结构 (6)Transformer 结构 (7)训练技巧与个人思考 论文下载链接:赞 3评论 8浏览 1659 - [浏览需要 0 积分] 发布于16天前赞 2评论 1浏览 104
- [浏览需要 0 积分] 发布于17天前赞 2评论浏览 89
- [浏览需要 0 积分] 发布于23天前
《Muon续集:为什么我们选择尝试Muon?》
https://kexue.fm/archives/10739 本文介绍了我们在 Muon 优化器上的一次较大规模实践(Moonlight),并分享了我们对 Muon 优化器的最新思考。赞 2评论浏览 136 - [浏览需要 0 积分] 发布于23天前
【JP】High fidelity zero shot speaker adaptation in text to speech synthesis with denoising diffusion GAN
论文链接赞 2评论浏览 189 - [浏览需要 0 积分] 发布于29天前赞 2评论浏览 201
- [浏览需要 0 积分] 发布于29天前赞 2评论浏览 160
- [浏览需要 0 积分] 发布于2025-02-17 14:29:24
【CP】End-to-End Speech Recognition with Pre-trained Masked Language Model
论文链接 We present a novel approach to end-to-end automatic speech recognition (ASR) that utilizes pre-trained masked language mode...赞 2评论 1浏览 207 - [浏览需要 0 积分] 发布于2025-02-14 16:07:25
《生成扩散模型漫谈(二十九):用DDPM来离散编码》
https://kexue.fm/archives/10711 本文介绍了扩散模型的一个新脑洞,它将 DDPM 生成过程中的噪声限制在一个有限的集合上,并结合条件生成的思路,将 DDPM 免训练地变成一个类似 VQ-VAE 的离散自编码器。赞 2评论浏览 220 - [浏览需要 0 积分] 发布于2025-02-11 11:27:05赞 2评论浏览 323
- [浏览需要 0 积分] 发布于2025-02-08 16:18:01
《MoE环游记:1、从几何意义出发》
https://kexue.fm/archives/10699 本文从 Dense 模型的最佳逼近出发来推导和理解 MoE,得到了一种特定的 MoE 形式,它比现有 MoE 多了一个 Normalize 步骤,但能让 MoE 的几何意义更加明显。当然,不管...赞 2评论浏览 279