InfoTok
Search documents
ICLR 2026 Oral | 大道至简!斯坦福、英伟达、新国立联合推出InfoTok,用信息论重新定义高效视频分词
机器之心· 2026-03-30 06:52
动机:什么才是好的视频分词器? 在生成式 AI 领域,视觉分词器(Visual Tokenizer)通常采用固定压缩率 —— 无论是单调的监控画面,还是复杂的动作大片,都被切分为等量的 Token。这种 "一 刀切" 的做法不仅会造成巨大的计算冗余,也产生了 "信息量" 不同的 Token,不利于下游理解生成任务处理。 近日, 来自 斯坦福 大学、英伟达(NVIDIA)Cosmos 团队和新加坡国立大学的研究团队 提出了一种基于信息论的自适应视频分词器 InfoTok ,能根据视频内容 复杂度自动分配 Token 数量,实现了 2.3 倍 压缩率 ,推理速度比同类自适应方案 快 11 倍 的同时取得了更优的重建质量,为高效视频理解与生成开辟了新的可 能。该论文在已被 ICLR 2026 接收为 Oral 口头报告,第一作者为斯坦福大学 Haotian Ye 和新加坡国立大学 Qiyuan He。 论文标题:InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression 论文链接:https://arxiv.org ...