JoVA - filings, earnings calls, financial reports, news - Reportify

JoVA

Search documents

港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型

机器之心· 2025-12-29 23:36

作者介绍：本文第一作者黄小虎同学，目前是香港大学的三年级在读博士生，导师是韩锴教授。黄小虎的研究方向是以视频为中心的领域，包括音视频生成、视频理解以及视频识别。视频 - 音频联合生成的研究近期在开源与闭源社区都备受关注，其中，如何生成音视频对齐的内容是研究的重点。近日，来自香港大学和字节跳动的研究团队提出了一种简单有效的框架 ——JoVA，它支持视频和音频的 Token 在一个 Transformer 的注意力模块中直接进行跨模态交互。为了解决人物说话时的 "口型 - 语音同步" 问题，JoVA 引入了一个基于面部关键点检测的嘴部区域特定损失 (Mouth-area specific loss)。实验表明，JoVA 只采用了约 190 万条训练数据，便在口型同步准确率、语音质量和整体生成保真度上，达到了先进水平。项目主页： https://visual-ai.github.io/jova/ 论文地址：https://arxiv.org/abs/2512.13677 一、研究背景与动机目前的开源解决方案通常分为两大类别：一类是 "级联式"，即先生成视频再配音，或者先生成语音再驱动视频生成，这种方式 ...

视频 - 音频联合生成

联合自注意力

Artificial Intelligence

视频 - 音频联合生成

联合自注意力

Artificial Intelligence