• 首页
  • 时间轴
  • 分类
  • 标签
  • 搜索
szh's Blog

szh's Blog


嗨 是你啊
标签 Autoregressive Model
Machine Learning Computer Vision

SHOW-O: ONE SINGLE TRANSFORMER TO UNIFYMULTIMODAL UNDERSTANDING AND GENERATION

1 研究背景、动机、主要贡献 1.1 研究背景 现有的尝试主要是独立地对待每个领域,并且通常涉及单独负责理解和生成的模型。 1.2 主要贡献 提出了Show-o,一个能够同时处理多模态理解和生成任务的统一Transfo...

2024-10-15 Autoregressive Model, Diffusion Model, Transformer 阅读全文
Machine Learning Computer Vision

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

1 研究背景、动机、主要贡献 主要贡献 Transfusion方法的提出:通过将离散文本标记的预测和连续图像的扩散过程完全整合,Transfusion能够同时处理这两种模态,无信息损失。 多模态训练框架:论文展示了如何在一个统一...

2024-10-11 Autoregressive Model, Diffusion Model, Transformer 阅读全文
Machine Learning Computer Vision

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

1 研究背景、动机、主要贡献 1.1 研究背景 标准自回归模型 vs. VAR AR在文本中的应用:按顺序从左到右逐个生成文本标记。 AR在图像中的应用:以类似的方式,从左到右、从上到下逐行生成图像的视觉标记,类似于在文本...

2024-10-07 Autoregressive Model, Transformer, 图像生成 阅读全文
Machine Learning Computer Vision

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

1 研究背景 基于自回归模型的 LLMs 取得了显著进展,部分研究开始探讨自回归模型在图像生成领域的应用,并引入图像标记化技术将连续图像转换为离散标记,从而实现图像标记的生成。 2 论文提出的新思路、新理论、或新方法 首先,...

2024-10-02 Autoregressive Model, Transformer, 图像生成 阅读全文

szh’s Blog

文章 27 分类 6 标签 13

分类目录

  • Machine Learning22
    • Computer Vision22
  • 大模型安全3
    • 幻觉3
  • 杂1
    • Hexo1

标签合集

Autoregressive Model Benchmark Diffusion Model Diffusion 可控生成 Hexo Masked Image Modeling Transformer VQ inpainting 图像生成 大模型安全-幻觉 视频生成 论文阅读

最新文章

    Taming Scalable Visual Tokenizer for Autoregressive Image Generation Addressing Representation Collapse in Vector Quantized Models with One Linear Layer T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation Blended Latent Diffusion Blended Diffusion for Text-driven Editing of Natural Images
  • © 2025 szh's Blog 版权所有.
  • 本站已运行Loading...
  • Theme Kratos:Rebirth
  • Site built with  by szh.
  • Powered by Hexo
  • Hosted on Github Pages