标签: VQ | szh's Blog

szh's Blog

Machine Learning Computer Vision

Taming Scalable Visual Tokenizer for Autoregressive Image Generation

1 研究背景、动机、主要贡献 1.1 存在问题(动机) 现有的方法通过降低潜在空间的维度来缓解表示崩溃问题（只有一小部分 codebook 中向量通过梯度下降更新），但会以牺牲模型容量为代价。 1.2 主要贡献提出了 IB...

Machine Learning Computer Vision

Addressing Representation Collapse in Vector Quantized Models with One Linear Layer

1 研究背景、动机、主要贡献1.1 存在问题(动机)现有的方法通过降低潜在空间的维度来缓解表示崩溃问题（只有一小部分 codebook 中向量通过梯度下降更新），但会以牺牲模型容量为代价。 1.2 主要贡献提出了 SimVQ 方法，有...