Machine Learning Computer Vision T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation 1 研究背景、动机、主要贡献 1.1 研究背景 文本到图像生成领域的最新进展展示了基于自然语言提示创建多样化和高保真图像的卓越能力。然而,即使是最先进的文本到图像模型也常常无法将具有不同属性和关系的多个对象组合成一个复杂且连贯的场...