[浏览需要 0 积分] 发布于 2024-05-30 19:32:57

《Transformer升级之路：18、RoPE的底数设计原则》

https://kexue.fm/archives/10122

本文简单介绍了论文《Base of RoPE Bounds Context Length》，它从语义聚合的期望性质讨论了 RoPE 的底数下界，由此指出更大的训练长度应该选择更大的底数，而不单单是为了配合“先短后长”的训练策略、继而利用 NTK-RoPE 来降低初始损失的折中选择。

浏览 (613)