元语音 [浏览需要 0 积分] 发布于 2026-01-04 10:26:45 《为什么DeltaNet要加L2 Normalize?》 https://kexue.fm/archives/11486 这篇文章围绕 DeltaNet 的 L2 Normalize 进行讨论,主要介绍了以微分方程为出发点对 DeltaNet 重新参数化的思路,它也可以视作 DeltaNet 中\boldsymbol{K}的 L2 Normalize 运算的一种解释。 文本 #文本 浏览 (54) 点赞 收藏