Workflow
世界模型深入浅出 | VQ家族论文整理(VQ-VAE/VQ-GAN/RQ-VAE等)
自动驾驶之心·2025-10-21 00:06

编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 约了知乎大佬@论文推土机,整理下世界模型技术栈下VQ家族的相关论文,分享给大家! >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 为什么要离散化: 作者 | 论文推土机 离散化直接应用到像素级ar: 像素级 AR 的困境 :直接在像素空间做自回归步数过大(256×256 需约 20 万步),难以落地。 "先压缩后生成"的主流与隐患 :VQ-VAE/VQ-GAN/FSQ 等"图像 tokenizer"在 32×32 或 16×16 网格上生成,再解码回像素;但这是 强压缩 ,会引入信息损失 (SEED 可视化重构示例:语义对,但细节走样)。 信息论下的下界估算 :以 ImageNet-64 平均熵估算,一个长度为V的词表,信息容量是log2(V), 若想在 L=32×32 或 16×16 的长度上"无损"承载图像信息,词表规模 需夸张到 甚至 ,远超现有 codebook 能力—— 强压缩必然有损。 然而,直接在像素空间上操作的最大问题是——序列太长,生成太慢。在多数应用场景中,图片 ...