《“闭门造车”之多模态思路浅谈(三):位置编码》
https://kexue.fm/archives/10352
本文分享了笔者关于多模态位置编码的后续思考,提出了构建多模态位置编码的三个原则:兼容性、等价性和对称性,改进了之前提出过的 RoPE-Tie,最后讨论了“文本-视频”混合模态的位置编码设计和困难,以及 Qwen2-VL 的 M-RoPE 与 RoPE-Tie 的联系等。
https://kexue.fm/archives/10352
本文分享了笔者关于多模态位置编码的后续思考,提出了构建多模态位置编码的三个原则:兼容性、等价性和对称性,改进了之前提出过的 RoPE-Tie,最后讨论了“文本-视频”混合模态的位置编码设计和困难,以及 Qwen2-VL 的 M-RoPE 与 RoPE-Tie 的联系等。