Addressing Representation Collapse in Vector Quantized Models with One Linear Layer

2024-12-28
作者 szh
1453 字

1 研究背景、动机、主要贡献
1. 1.1 存在问题(动机)
2. 1.2 主要贡献
2 论文提出的新方法
3 论文实验评估方法与效果
4 论文优缺点、局限性、借鉴性

1 研究背景、动机、主要贡献

1.1 存在问题(动机)

现有的方法通过降低潜在空间的维度来缓解表示崩溃问题（只有一小部分 codebook 中向量通过梯度下降更新），但会以牺牲模型容量为代价。

1.2 主要贡献

提出了 SimVQ 方法，有效解决了表示崩溃问题，并在多种模态（图像和音频）和不同模型架构上验证了有效性。

2 论文提出的新方法

SimVQ 通过引入一个可学习的线性变换矩阵 W 来重新参数化 codebook，将codebook C 转换为 CW。这种方法使得整个 codebook 可以被优化，而不仅仅是被选择的 embedding。且验证了只有 W 被优化，而 C 保持固定的情况下效果最好，同时也显著降低了内存使用并提高了训练效率。

3 论文实验评估方法与效果

效果上挺好的，且其实验设置 embedding_dim 为 128，而其他的 vq 大多为 8、16。codebook size 为 65536，这点上也放大了其他方法的表示崩溃问题。codebook size 能够设置为 65536，其实也得益于其仅需要更新 W，内存消耗仅为，与 codebook size 无关，而其他方法大多为。

虽然这样的实验设置是根据本文方法的优点来设置的，同时也会放大其他方法的缺点，但是各个指标上面的表现，也优于其他方法在适合自身方法的 setting 下的表现。

4 论文优缺点、局限性、借鉴性

优点：

更高的重建表现、更高的 codebook 利用率
更小的内存消耗
latent dim 较大时也能有较好的表现

缺点（审稿人）：

虽然这在实践中可能效果很好，但我不认为需要就此写一篇全新的论文
1. 论文的主要贡献可以总结为，如果将一个 codeword 分配给编码器输出会导致表示崩溃，那么可以使用整个 codebook 的加权组合。虽然这在实践中可能效果很好，但我不认为需要就此写一篇全新的论文。
相关工作的引用
1. 请添加2024年ICML的“隐式神经码本的残差量化”以及其他关于VQ的最新论文的引用。
2. 文献回顾有限：论文缺乏全面的相关工作回顾，省略了几个相关的解决codebook 崩溃的方法，如SQ-VAE [1]、VQ-WAE [2]、HVQ-VAE [3]和CVQ-VAE [4]
3. 没有探索和经典的字典学习、稀疏编码和向量量化的联系
4. 没有提到 SC-VAE
实验
1. 缺少生成方面的实验
  1. 无法将潜在表示离散化。基于相关系数训练 transformer？
2. 缺少 baseline：重要的 baseline 方法如SQ-VAE [1]、VQ-WAE [2]、HVQ-VAE [3]和CVQ-VAE [4]没有包含在实验比较中。
3. 缺少和 SC-VAE 的比较
实验分析方面
1. “Remark 4.1. The simultaneous optimization of the latent basis w and the coefficient matrix q may lead to the collapse.”. Why is this the case?
其他
1. 如果包含玩具示例部分，需要详细阐述，以便读者可以手工计算示例。
2. 关于 codebook 崩溃原因的见解并不新颖

原文链接：Addressing Representation Collapse in Vector Quantized Models with One Linear Layer

szh's Blog

Addressing Representation Collapse in Vector Quantized Models with One Linear Layer

1 研究背景、动机、主要贡献

1.1 存在问题(动机)

1.2 主要贡献

2 论文提出的新方法

3 论文实验评估方法与效果

4 论文优缺点、局限性、借鉴性

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

szh's Blog

1 研究背景、动机、主要贡献

1.1 存在问题(动机)

1.2 主要贡献

2 论文提出的新方法

3 论文实验评估方法与效果

4 论文优缺点、局限性、借鉴性

本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可