[浏览需要 0 积分] 发布于 2024-04-08 17:55:49

《时空之章：将Attention视为平方复杂度的RNN》

https://kexue.fm/archives/10017

在这篇文章中，我们从平方复杂度 RNN 的角度审视了 Attention，并发现了它具有常数空间复杂度的瓶颈，这表明 Attention 相比 RNN 本质上并没有增加“内存”，而只是增加了非常多的计算量。这个瓶颈的存在，表明 Attention 对任意长度的输入的泛化存在理论上的困难，而为了修补这个缺陷，可能需要人为给模型补上一个理论上无限容量的外部记忆——正如图灵机中的无限长纸带。

https://mp.weixin.qq.com/s/na9Tdp3ThYT2QO5fbDYOzQ

文本 #文本

浏览 (653)