视频虚拟试穿技术

Search documents
AI 模特时代到来:字节x清华推出商用级视频换装模型DreamVVT,保真度显著领先SOTA
机器之心· 2025-08-15 01:16
服装视频广告太烧钱?卡点变装太难拍? 字节跳动智能创作团队联合清华大学 最新推出一款全能的视频换装模型 DreamVVT,为视频虚拟试穿领域带来了突破性 进展。 该模型基于 Diffusion Transformer(DiTs)构建,通过精细的两阶段设计,成功解决了现有技术在复杂场景下的痛点, 能够支持任意类型的衣服、处理大幅度的人 物或者相机运动、复杂背景以及不同的风格的输入。 技术前沿:攻克复杂场景下的 视频虚拟试穿难题 视频虚拟试穿(Video Virtual Try-on, VVT),这项旨在将任意服装魔法般地 "穿" 在视频中人物身上的技术,正逐渐成为电商、广告及娱乐产业的焦点。然而,要 实现理想效果,现有技术仍面临着严峻挑战。 主流的端到端方案高度依赖稀缺的 "服装 - 视频" 成对训练数据,同时难以充分利用强大预训练模型的先验知识。这导致在人物 360 度旋转、镜头剧烈运镜或背景 动态变化的复杂场景下,生成的视频往往会遭遇 服装细节崩 坏、纹理 丢失与时序抖动 等一系列问题。 为攻克这一行业难题,字节跳动智能创作团队与清华大学携手,提出了全新的 DreamVVT 框架,刷新了该领域的 SOTA ...