METASPEECH
[浏览需要 0 积分] 发布于

《时空之章:将Attention视为平方复杂度的RNN》

https://kexue.fm/archives/10017

在这篇文章中,我们从平方复杂度 RNN 的角度审视了 Attention,并发现了它具有常数空间复杂度的瓶颈,这表明 Attention 相比 RNN 本质上并没有增加“内存”,而只是增加了非常多的计算量。这个瓶颈的存在,表明 Attention 对任意长度的输入的泛化存在理论上的困难,而为了修补这个缺陷,可能需要人为给模型补上一个理论上无限容量的外部记忆——正如图灵机中的无限长纸带。

https://mp.weixin.qq.com/s/na9Tdp3ThYT2QO5fbDYOzQ

浏览 (624)
点赞
收藏
评论