Machine Learning Computer Vision

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

1. 研究背景、动机、主要贡献 1.1 存在问题(动机) 现有的文本到图像生成模型可以根据文本提示生成高质量和多样化的图像,但它们无法在不同的场景中一致地再现特定主体。 因为即使使用详细的文本描述,现有模型的输出域表达力有限,生...

Machine Learning Computer Vision

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

1. 研究背景、动机、主要贡献 引入新概念到大模型中往往是困难的。因为重新训练模型非常昂贵,而仅用少量示例进行微调通常会导致“灾难性遗忘”——模型忘记了先前学到的知识。尽管有些方法通过冻结模型并训练转换模块来适应新概念,但这些方法依...