发布于 23天前

《Transformer升级之路：17、多模态编码位置的简单思考》

https://kexue.fm/archives/10040

本文讨论了如何将 RoPE-1D 和 RoPE-2D 结合起来，来更好地处理图文混合的输入格式，主要思想是通过 RoPE-2D 支持图片的二维位置指标，并且通过适当的约束，使得在纯文本情况下能退化为常规的 RoPE-1D。

浏览 (188)