[浏览需要 0 积分] 发布于

《Transformer升级之路:18、RoPE的底数设计原则》

https://kexue.fm/archives/10122

本文简单介绍了论文《Base of RoPE Bounds Context Length》,它从语义聚合的期望性质讨论了 RoPE 的底数下界,由此指出更大的训练长度应该选择更大的底数,而不单单是为了配合“先短后长”的训练策略、继而利用 NTK-RoPE 来降低初始损失的折中选择。

https://mp.weixin.qq.com/s/-PKvDf7HO82gr3tONY1-gQ

浏览 (573)
点赞 (1)
收藏
评论