元语音研究网
首页推荐关注语音文本图像大模型
    登录
    首页
    话题
    首页
    推荐
    关注
    语音
    文本
    图像
    大模型
    消息
    登录
    最新
    推荐
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于3天前

      《msign的导数》

      https://kexue.fm/archives/11025 本文讨论了 msign 算子的导数计算,如果你关心“TTT + Muon”的组合,那么本文也许对你有帮助。
      赞 1
      评论
      浏览 6
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于3天前

      蔡崇信的现场分享:

      我女儿大学毕业三年了,今年 25 岁,当时她正处于跳槽过渡期,我们聊到了职业规划,她说:“我现在不想在找到新工作前贸然辞职”,其实我之前建议她,先辞去当前工作,用半年时间好好思考真正想做什么,但是她说,这样做对我的简历很不好。 所以我首先给出的建议是,也是...
      赞 1
      评论
      浏览 7
      交流讨论
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于3天前

      《msign算子的Newton-Schulz迭代(下)》

      https://kexue.fm/archives/10996 本文介绍了求解 msign 算子的 Newton-Schulz 迭代的最新进展,它通过等值振荡定理和贪心转换,直接求出理论上的最优解,整个过程相当硬核,值得学习一波。
      赞 1
      评论
      浏览 7
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于21天前

      《生成扩散模型漫谈(三十):从瞬时速度到平均速度》

      https://kexue.fm/archives/10958 本文以最近出来的 MeanFlow 为中心,讨论了“平均速度”视角下的扩散模型加速生成思路。
      赞 1
      评论
      浏览 39
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2025-05-17 10:35:08

      《msign算子的Newton-Schulz迭代》

      https://kexue.fm/archives/10922 介绍 Muon 优化器的核心运算 msign 的最新计算进展。
      赞 1
      评论
      浏览 51
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2025-05-17 10:29:35

      MMAR

      🔊💬🎵 我们正式推出 MMAR——首个面向音频-语言模型的深度推理评测基准!1000 道高难度音频-问答对,覆盖声音、音乐、语音及其混合场景,挑战模型的多层次认知能力! ✨ 核心亮点
✅ 四层推理任务:从信号(Signal)感知(Perception)到语...
      赞 2
      评论
      浏览 55
      语音
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2025-05-17 10:28:42

      《MoE环游记:5、均匀分布的反思》

      https://kexue.fm/archives/10945 本文介绍了 MoE 的 Shared Expert 和 Fine-Grained Expert 策略,并指出它们某种程度上都体现了负载均衡的非最优性。
      赞 1
      评论
      浏览 40
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2022-05-14 11:37:49

      端到端语音识别-01-田正坤

      论文优势: (1)CTC 模型介绍 (2)基础 Attention 模型 (3)Encoder 模型探讨 (4)软、硬 Attention 机制 (5)多任务学习结构 (6)Transformer 结构 (7)训练技巧与个人思考 论文下载链接:
      赞 3
      评论 13
      浏览 1895
      开源分享
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2025-04-26 21:52:17

      《SVD的导数》

      https://kexue.fm/archives/10878 SVD 大家应该都听说过吗?但大家有没有想到过,SVD 其实是可导的?
      赞 2
      评论
      浏览 62
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2025-04-18 19:50:50

      《Transformer升级之路:19、第二类旋转位置编码》

      https://kexue.fm/archives/10862 本文围绕着“RoPE 可以加在 V 上吗”进行展开,讨论了 RoPE 的第二种用法。
      赞 2
      评论
      浏览 68
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2025-04-18 19:50:03

      《矩阵的有效秩(Effective Rank)》

      https://kexue.fm/archives/10847 本文探讨了矩阵的有效秩(Effective Rank)概念,它是线性代数中矩阵的秩(Rank)概念在数值计算方面的延伸,能够更有效地度量矩阵的本质维度。
      赞 2
      评论
      浏览 87
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2022-03-06 21:41:54

      清华大学 - 语音识别基本法

      下载链接
      赞 6
      评论 37
      浏览 2568
      开源分享
    • AI柠檬
      AI柠檬 AI柠檬
      [浏览需要 0 积分] 发布于2025-03-28 23:33:26

      【前沿观察】最新研究:DeepSeek-R1 的性能、安全性和可解释性

      随着 DeepSeek-R1 的推出,其在多个领域的卓越表现引起了广泛关注。然而,除了性能,安全性、计算效率和可解释性也成为研究者们关注的重点。以下是对几篇近期发表的 arXiv 论文中关于 DeepSeek-R1 的研究综述。 1. 温度设置与架构对生成...
      赞 2
      评论
      浏览 178
      前沿动态
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2025-03-28 21:43:09

      《MoE环游记:4、难处应该多投入》

      https://kexue.fm/archives/10815 本文提出了一种动态选择 Expert 数目的 MoE 设计,主要思想是对 Loss-Free 的 MoE 形式稍作修改,然后修改 Bias 项的更新规则,利用它的额外自由度来同时实现负载均衡和...
      赞 2
      评论
      浏览 113
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2025-03-24 11:31:24

      《高阶muP:更简明但更高明的谱条件缩放》

      https://kexue.fm/archives/10795 这篇文章介绍了 muP 的升级版——谱条件,它从谱范数相关的不等式切入来分析模型稳定训练的条件,以一种更便捷的方式得到了比 muP 更丰富的结果。
      赞 2
      评论
      浏览 113
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2025-03-20 14:03:55

      开源儿童数据,南开大学

      大家好,我们开源了一个 3-5 岁的儿童语音数据集,包括 397 名儿童的 41.25h 的语音,说话人覆盖了 22 个省市,目前已经在 huggingface 上开放下载了,论文链接:https://arxiv.org/abs/2409.18584
      赞 2
      评论
      浏览 174
      语音
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2025-03-13 18:12:04

      《初探muP:超参数的跨模型尺度迁移规律》

      https://kexue.fm/archives/10770 本文以尽可能简明清晰的方式介绍了 muP(Maximal Update Parametrization),这是旨在研究超参数跨模型尺度的迁移规律的工作。基于 muP,我们可以在小模型上以相对较...
      赞 2
      评论
      浏览 139
      文本
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-03-07 17:36:31

      【CP-力作鼎推】OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models

      论文链接 Neural scaling laws offer valuable insights for designing robust sequence processing architectures. While these laws have b...
      赞 2
      评论 1
      浏览 317
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-03-06 14:10:10

      【CP】Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets

      论文链接 代码链接
      赞 2
      评论 1
      浏览 292
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-03-05 16:10:22

      【CP】Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model

      论文链接
      赞 2
      评论
      浏览 322
      语音
    签到
    0
    立即签到
    公告

    元语音研究网站板块设计:【CP】Conference Paper,【JP】Journal Paper,【TR】Technique Report,【优秀导师】,【优秀研究员】,【优秀博士生】

    积分排行
    • METASPEECH
      METASPEECH

      269 帖子 • 51 评论

      1646
    • Speech
      Speech

      166 帖子 • 24 评论

      1292
    • AI柠檬
      AI柠檬

      14 帖子 • 16 评论

      509
    • 江南一点红
      江南一点红

      1 帖子 • 1 评论

      46
    • 懵
      懵懵懂懂的新手

      1 帖子 • 17 评论

      39
    • M
      Mephisto

      0 帖子 • 4 评论

      28
    • 後藤ひとり
      後藤ひとり

      0 帖子 • 0 评论

      23
    • 心行
      心行

      2 帖子 • 0 评论

      20
    • 出东巷
      出东巷

      0 帖子 • 0 评论

      15
    • betciso
      betciso

      0 帖子 • 1 评论

      12
    关于 标签 友链
    © 2024 元语音研究网   由 AI柠檬 提供技术支持
    沪ICP备2022004527号-2