Summary
- 稳定扩散中的交叉注意图经常包含对象类别信息和上下文信息,这可能导致编辑失败。
- 相比之下,自注意图在将源图像转换为目标图像的过程中起到了保留几何和形状细节的关键作用。
本文提出仅在去噪过程中修改指定注意层的自注意图。
Motivation
部分training free的image edit方法通过在生成过程中操作注意层中的特征组件来修改图像中的对象或对象属性。
然而,人们对这些注意层学习到的语义含义以及注意图的哪些部分对图像编辑的成功有何影响知之甚少。
在本文中,我们进行了深入的探索分析,证明
- 稳定扩散中的交叉注意图经常包含对象归属信息,这可能导致编辑失败。
- 相比之下,自注意图在将源图像转换为目标图像的过程中起到了保留几何和形状细节的关键作用。
我们的分析为理解扩散模型中的交叉和自注意机制提供了有价值的见解。此外,基于我们的发现,我们提出了一种简化但更稳定和高效的无调整过程,仅在去噪过程中修改指定注意层的自注意图。实验证明,我们的简化方法在多个数据集上始终优于常用方法的性能。
我们发现
- (1)在扩散模型中,编辑交叉注意力图对于图像编辑是可选的。替换或改进源图像和目标图像生成过程之间的交叉注意力图是可有可无的,并且可能导致图像编辑失败。
- (2)交叉注意力图不仅是生成图像中相应位置条件提示的权重测量,还包含条件标记的语义特征。因此,用源图像的图来替换目标图像的交叉注意力图可能会产生意外的结果。
- (3)自注意力图对于image edit任务的成功至关重要,因为它们反映了图像特征之间的关联并保留了图像的空间信息。基于我们的发现,我们提出了一个简化且有效的算法,称为**free-prompt-editing(FPE)。FPE通过在去噪过程中替换特定注意力层中的自注意力图来执行图像编辑,而无需源提示。**这对于真实的图像编辑场景非常有益。
Analysis on Cross and Self-Attention
Cross-Attention in Stable Diffusion

实际上在代码实现的过程中