DiT

Search documents
DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
机器之心· 2025-08-20 04:26
机器之心报道 编辑:冷猫,+0 「兄弟们,DiT 是错的!」 最近一篇帖子在 X 上引发了很大的讨论,有博主表示 DiT 存在架构上的缺陷,并附上一张论文截图。 博主提到的论文发表于今年 1 月(3 月更新 v2),介绍了一种名为 TREAD 的新方法,该工作通过一种创新的「令牌路由」(token routing)机制,在不改变模型 架构的情况下,极大地提升了训练效率和生成图像的质量,从而在速度和性能上都 显著超越了 DiT 模型 。 具体而言,TREAD 在训练过程中使用「部分令牌集」(partial token set) vs 「完整令牌集」(full token set),通过预定义路由保存信息并重新引入到更深层,跳 过部分计算以减少成本,同时仅用于训练阶段,推理时仍采用标准设置。这与 MaskDiT 等方法类似,但更高效。 图 1. 我们引入了 TREAD ,这是一种能够显著提升基于 token 的扩散模型骨干网络训练效率的训练策略。当应用于标准的 DiT 骨干网络时,我们在无引导 FID 指标上实现了 14/37 倍的训练速度提升,同时 也收敛到了更好的生成质量。 图中横轴代表训练时间(以 A100 ...