《Transformer升级之路:18、RoPE的底数设计原则》
https://kexue.fm/archives/10122
本文简单介绍了论文《Base of RoPE Bounds Context Length》,它从语义聚合的期望性质讨论了 RoPE 的底数下界,由此指出更大的训练长度应该选择更大的底数,而不单单是为了配合“先短后长”的训练策略、继而利用 NTK-RoPE 来降低初始损失的折中选择。
https://kexue.fm/archives/10122
本文简单介绍了论文《Base of RoPE Bounds Context Length》,它从语义聚合的期望性质讨论了 RoPE 的底数下界,由此指出更大的训练长度应该选择更大的底数,而不单单是为了配合“先短后长”的训练策略、继而利用 NTK-RoPE 来降低初始损失的折中选择。