《时空之章:将Attention视为平方复杂度的RNN》
https://kexue.fm/archives/10017
在这篇文章中,我们从平方复杂度 RNN 的角度审视了 Attention,并发现了它具有常数空间复杂度的瓶颈,这表明 Attention 相比 RNN 本质上并没有增加“内存”,而只是增加了非常多的计算量。这个瓶颈的存在,表明 Attention 对任意长度的输入的泛化存在理论上的困难,而为了修补这个缺陷,可能需要人为给模型补上一个理论上无限容量的外部记忆——正如图灵机中的无限长纸带。