• 首页
  • 时间轴
  • 分类
  • 标签
  • 搜索
szh's Blog

szh's Blog


嗨 是你啊
标签 VQ
Machine Learning Computer Vision

Taming Scalable Visual Tokenizer for Autoregressive Image Generation

1 研究背景、动机、主要贡献 1.1 存在问题(动机) 现有的方法通过降低潜在空间的维度来缓解表示崩溃问题(只有一小部分 codebook 中向量通过梯度下降更新),但会以牺牲模型容量为代价。 1.2 主要贡献 提出了 IB...

2025-03-13 VQ, 论文阅读 阅读全文
Machine Learning Computer Vision

Addressing Representation Collapse in Vector Quantized Models with One Linear Layer

1 研究背景、动机、主要贡献1.1 存在问题(动机)现有的方法通过降低潜在空间的维度来缓解表示崩溃问题(只有一小部分 codebook 中向量通过梯度下降更新),但会以牺牲模型容量为代价。 1.2 主要贡献提出了 SimVQ 方法,有...

2024-12-28 VQ, 论文阅读 阅读全文

szh’s Blog

文章 27 分类 6 标签 13

分类目录

  • Machine Learning22
    • Computer Vision22
  • 大模型安全3
    • 幻觉3
  • 杂1
    • Hexo1

标签合集

Autoregressive Model Benchmark Diffusion Model Diffusion 可控生成 Hexo Masked Image Modeling Transformer VQ inpainting 图像生成 大模型安全-幻觉 视频生成 论文阅读

最新文章

    Taming Scalable Visual Tokenizer for Autoregressive Image Generation Addressing Representation Collapse in Vector Quantized Models with One Linear Layer T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation Blended Latent Diffusion Blended Diffusion for Text-driven Editing of Natural Images
  • © 2025 szh's Blog 版权所有.
  • 本站已运行Loading...
  • Theme Kratos:Rebirth
  • Site built with  by szh.
  • Powered by Hexo
  • Hosted on Github Pages