1. 研究背景、动机、主要贡献 1.1 存在问题(动机) 文本到图像模型在对图像的空间组成提供的控制方面受到限制。仅通过文本提示来精确表达复杂的布局、姿势、形状和形式可能很困难。生成与我们的心理想象准确匹配的图像通常需要多次反...
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
1. 研究背景、动机、主要贡献 1.1 存在问题(动机) 现有的文本到图像生成模型可以根据文本提示生成高质量和多样化的图像,但它们无法在不同的场景中一致地再现特定主体。 因为即使使用详细的文本描述,现有模型的输出域表达力有限,生...
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
1. 研究背景、动机、主要贡献 引入新概念到大模型中往往是困难的。因为重新训练模型非常昂贵,而仅用少量示例进行微调通常会导致“灾难性遗忘”——模型忘记了先前学到的知识。尽管有些方法通过冻结模型并训练转换模块来适应新概念,但这些方法依...
Scalable Diffusion Models with Transformers
1. 研究背景、动机、主要贡献 传统的扩散模型大多采用U-Net作为主干网络,LDM ( High-Resolution Image Synthesis with Latent Diffusion Models ) 也只是通过交...
High-Resolution Image Synthesis with Latent Diffusion Models
1. 研究背景、动机、主要贡献 传统的扩散模型在像素空间操作,导致计算开销巨大,训练和推理都非常耗时。特别是高分辨率图像合成需要大量的GPU资源,限制了模型的广泛应用。 为了降低计算复杂度,作者提出在预训练的自动编码器的潜在空间中...
DENOISING DIFFUSION IMPLICIT MODELS
1. 研究背景、动机、主要贡献 在 DDPM 中,生成过程被定义为特定马尔可夫扩散过程的逆过程。 本方法通过一类非马尔可夫扩散过程来推广 DDPM。 这些非马尔可夫过程可以对应于确定性的生成过程,从而产生能够更快地生成高质量样...
Improved Denoising Diffusion Probabilistic Models
1. 研究背景、动机、主要贡献 DDPM的论文有指出与其他基于似然的模型相比,我们的模型不具有竞争性的对数似然。 而本文主要做的两件事情就是提高对数似然和提高采样速度。 本文还发现,DDPM 可以与 GAN 的样本质量相匹配,...
Denoising Diffusion Probabilistic Models
1. 扩散模型和去噪自动编码器 方法原理 方法原理大概就是对于 Noise Predicter 输入一张有噪音的图、当前的步骤编号(和文字提示),然后 Noise Predicter 生成预测的噪音,再用原来的图片减去噪音,得...