《Decoder-only的LLM为什么需要位置编码?》
https://kexue.fm/archives/10347
尽管已经有一些工作表明,Deocder-only 模型不加位置编码似乎也能取得不错的结果,但主流的 LLM 仍然额外加上了额外的位置编码,本文试图对这个现象给出自己的理解。
https://kexue.fm/archives/10347
尽管已经有一些工作表明,Deocder-only 模型不加位置编码似乎也能取得不错的结果,但主流的 LLM 仍然额外加上了额外的位置编码,本文试图对这个现象给出自己的理解。