METASPEECH
[浏览需要 0 积分] 发布于

《缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA》

https://kexue.fm/archives/10091

本文简单概率了多头注意力的演变历程,特别是从 MHA 向 MQA、GQA,最终到 MLA 的变化理念,最后详细展开了对 MLA 的介绍。在本文中,MLA 被视为 GQA 的一般化,它用投影矩阵的方式替代了 GQA 的分割、重复,并引入了一个恒等变换技巧来可以进一步压缩 KV Cache,同时采用了一种混合方法来兼容 RoPE。总的来说,MLA 称得上是一种非常实用的注意力变体。

https://mp.weixin.qq.com/s/Qj6suFdEnP5_OQhYQGvxKg

浏览 (1668)
点赞 (1)
收藏
评论