标签: Autoregressive Model | szh's Blog

szh's Blog

Machine Learning Computer Vision

SHOW-O: ONE SINGLE TRANSFORMER TO UNIFYMULTIMODAL UNDERSTANDING AND GENERATION

1 研究背景、动机、主要贡献 1.1 研究背景现有的尝试主要是独立地对待每个领域，并且通常涉及单独负责理解和生成的模型。 1.2 主要贡献提出了Show-o，一个能够同时处理多模态理解和生成任务的统一Transfo...

Machine Learning Computer Vision

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

1 研究背景、动机、主要贡献主要贡献 Transfusion方法的提出：通过将离散文本标记的预测和连续图像的扩散过程完全整合，Transfusion能够同时处理这两种模态，无信息损失。多模态训练框架：论文展示了如何在一个统一...

Machine Learning Computer Vision

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

1 研究背景、动机、主要贡献 1.1 研究背景标准自回归模型 vs. VAR AR在文本中的应用：按顺序从左到右逐个生成文本标记。 AR在图像中的应用：以类似的方式，从左到右、从上到下逐行生成图像的视觉标记，类似于在文本...

Machine Learning Computer Vision

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

1 研究背景基于自回归模型的 LLMs 取得了显著进展，部分研究开始探讨自回归模型在图像生成领域的应用，并引入图像标记化技术将连续图像转换为离散标记，从而实现图像标记的生成。 2 论文提出的新思路、新理论、或新方法首先，...