《生成扩散模型漫谈(二十六):基于恒等式的蒸馏(下)》
https://kexue.fm/archives/10567
本文介绍了 SiD(Score identity Distillation)的后续理论进展,主要内容是从梯度视角解释了 SiD 中的 λ 参数设置,核心部分是由 FGM(Flow Generator Matching)发现的准确估计 SiD 梯度的巧妙思路,这肯定了 λ=0.5 的选择,在此基础上,笔者拓展了 Fisher 散度的概念,从而解释了 λ=1 的取值。
https://kexue.fm/archives/10567
本文介绍了 SiD(Score identity Distillation)的后续理论进展,主要内容是从梯度视角解释了 SiD 中的 λ 参数设置,核心部分是由 FGM(Flow Generator Matching)发现的准确估计 SiD 梯度的巧妙思路,这肯定了 λ=0.5 的选择,在此基础上,笔者拓展了 Fisher 散度的概念,从而解释了 λ=1 的取值。