[浏览需要 0 积分] 发布于 2024-05-13 14:13:58

《缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA》

https://kexue.fm/archives/10091

本文简单概率了多头注意力的演变历程，特别是从 MHA 向 MQA、GQA，最终到 MLA 的变化理念，最后详细展开了对 MLA 的介绍。在本文中，MLA 被视为 GQA 的一般化，它用投影矩阵的方式替代了 GQA 的分割、重复，并引入了一个恒等变换技巧来可以进一步压缩 KV Cache，同时采用了一种混合方法来兼容 RoPE。总的来说，MLA 称得上是一种非常实用的注意力变体。

https://mp.weixin.qq.com/s/Qj6suFdEnP5_OQhYQGvxKg

文本 #文本 #苏神

浏览 (1744)