Addressing Representation Collapse in Vector Quantized Models with One Linear Layer

  1. 1 研究背景、动机、主要贡献
    1. 1.1 存在问题(动机)
    2. 1.2 主要贡献
  2. 2 论文提出的新方法
  3. 3 论文实验评估方法与效果
  4. 4 论文优缺点、局限性、借鉴性

1 研究背景、动机、主要贡献

1.1 存在问题(动机)

现有的方法通过降低潜在空间的维度来缓解表示崩溃问题(只有一小部分 codebook 中向量通过梯度下降更新),但会以牺牲模型容量为代价。

1.2 主要贡献

提出了 SimVQ 方法,有效解决了表示崩溃问题,并在多种模态(图像和音频)和不同模型架构上验证了有效性。

2 论文提出的新方法

SimVQ 通过引入一个可学习的线性变换矩阵 W 来重新参数化 codebook,将codebook C 转换为 CW。这种方法使得整个 codebook 可以被优化,而不仅仅是被选择的 embedding。且验证了只有 W 被优化,而 C 保持固定的情况下效果最好,同时也显著降低了内存使用并提高了训练效率。

3 论文实验评估方法与效果

效果上挺好的,且其实验设置 embedding_dim 为 128,而其他的 vq 大多为 8、16。codebook size 为 65536,这点上也放大了其他方法的表示崩溃问题。codebook size 能够设置为 65536,其实也得益于其仅需要更新 W,内存消耗仅为 ,与 codebook size 无关,而其他方法大多为

虽然这样的实验设置是根据本文方法的优点来设置的,同时也会放大其他方法的缺点,但是各个指标上面的表现,也优于其他方法在适合自身方法的 setting 下的表现。

4 论文优缺点、局限性、借鉴性

优点:

  • 更高的重建表现、更高的 codebook 利用率
  • 更小的内存消耗
  • latent dim 较大时也能有较好的表现

缺点(审稿人):

  1. 虽然这在实践中可能效果很好,但我不认为需要就此写一篇全新的论文
    1. 论文的主要贡献可以总结为,如果将一个 codeword 分配给编码器输出会导致表示崩溃,那么可以使用整个 codebook 的加权组合。虽然这在实践中可能效果很好,但我不认为需要就此写一篇全新的论文。
  2. 相关工作的引用
    1. 请添加2024年ICML的“隐式神经码本的残差量化”以及其他关于VQ的最新论文的引用。
    2. 文献回顾有限:论文缺乏全面的相关工作回顾,省略了几个相关的解决codebook 崩溃的方法,如SQ-VAE [1]、VQ-WAE [2]、HVQ-VAE [3]和CVQ-VAE [4]
    3. 没有探索和经典的字典学习、稀疏编码和向量量化的联系
    4. 没有提到 SC-VAE
  3. 实验
    1. 缺少生成方面的实验
      1. 无法将潜在表示离散化。基于相关系数训练 transformer?
    2. 缺少 baseline:重要的 baseline 方法如SQ-VAE [1]、VQ-WAE [2]、HVQ-VAE [3]和CVQ-VAE [4]没有包含在实验比较中。
    3. 缺少和 SC-VAE 的比较
  4. 实验分析方面
    1. “Remark 4.1. The simultaneous optimization of the latent basis w and the coefficient matrix q may lead to the collapse.”. Why is this the case?
  5. 其他
    1. 如果包含玩具示例部分,需要详细阐述,以便读者可以手工计算示例。
    2. 关于 codebook 崩溃原因的见解并不新颖

原文链接:Addressing Representation Collapse in Vector Quantized Models with One Linear Layer