METASPEECH
[浏览需要 0 积分] 发布于

《“闭门造车”之多模态思路浅谈(三):位置编码》

https://kexue.fm/archives/10352

本文分享了笔者关于多模态位置编码的后续思考,提出了构建多模态位置编码的三个原则:兼容性、等价性和对称性,改进了之前提出过的 RoPE-Tie,最后讨论了“文本-视频”混合模态的位置编码设计和困难,以及 Qwen2-VL 的 M-RoPE 与 RoPE-Tie 的联系等。

https://mp.weixin.qq.com/s/hmi67V78UnvT0Je2-pfgxg

浏览 (996)
点赞 (2)
收藏
评论