METASPEECH
发布于

《Transformer升级之路:17、多模态编码位置的简单思考》

https://kexue.fm/archives/10040

本文讨论了如何将 RoPE-1D 和 RoPE-2D 结合起来,来更好地处理图文混合的输入格式,主要思想是通过 RoPE-2D 支持图片的二维位置指标,并且通过适当的约束,使得在纯文本情况下能退化为常规的 RoPE-1D。

https://mp.weixin.qq.com/s/h1YpNp7OZdvL1wX7TURU7g

浏览 (188)
点赞
收藏
评论