Prompt-to-Prompt Image Editing with Cross Attention Control

1. 研究背景、动机、主要贡献

像Imagen、DALL·E 2和Parti等LLI模型，展示了出色的语义生成和组合能力，但它们在图像编辑方面存在控制力不足的问题。即使是对文本提示的轻微修改，生成的图像也可能完全不同。

现有方法通常要求用户手动遮罩要编辑的图像区域，只在遮罩区域进行图像修改，保持其他部分不变。这种方法虽有效，但操作复杂且容易忽略遮罩区域中的重要结构信息，因此不适合更精细的编辑，如修改特定物体的纹理。

本文提出了一种新的、直观的文本编辑方法，通过“Prompt-to-Prompt”操控，利用预训练的文本条件扩散模型来进行语义图像编辑。

关键思想是深入分析交叉注意力层，探索它们在控制生成图像中的语义作用。交叉注意力层的映射将图像像素与从文本提示中提取的单词进行绑定，作者发现这些映射包含丰富的语义关系，并且对生成图像起关键作用。

本节主要讲利用交叉注意力机制，结合文本嵌入更新空间特征

基于Imagen文本引导合成模型，主要关注于文本到图像的扩散模型，而保持超分辨率过程不变。图像的构图和几何特征主要在64 × 64分辨率时决定。
步骤
- 每个扩散步骤 t 通过U形网络预测从噪声图像和文本嵌入中生成噪声。最终生成的图像为。
- 噪声图像的深层空间特征被投影到查询矩阵，文本嵌入则被投影到键矩阵和值矩阵。
- 注意力图为其中 d 是 keys and queries 的潜在投影维度。注意力图的元素表示第 j 个令牌对第 i 个像素的权重。
- 最终的交叉注意力输出通过加权平均计算得出，即，用于更新空间特征。
Imagen 模型在每个扩散步骤的噪声预测中使用两种类型的注意力层：交叉注意力层和混合注意力层。只干预混合注意力的交叉注意力部分。也就是说，只有最后一个通道（引用文本标记）在混合注意力模块中被修改。