真碾压Sora了!谷歌Veo 3首次实现音画同步,视频模型直接「开口说话」
机器之心·2025-05-21 08:04
机器之心报道 编辑:Sia 还记得 2023 年 AI 视频最出圈的片段吗? 威尔·史密斯吃面,动作鬼畜,画面寂静—— 当时的视频大模型,只会动,不会说话。 Sora 的发布让视频质量飞跃、物理规则建模进步巨大,也直接引爆了整条赛道。 更麻烦的是,配完音还可能对不上节奏——口型和对白不同步,脚步踩不到点上,情绪氛围总差一口 气。 直到今天,谷歌正式发布 Veo 3。AI 视频, 终于能「开口说话」了—— Veo 3 不仅能生成高质量视频,还能理解视频中的原始像素,自动生成与画面同步的对话、多种音效。 翻译成中文—— 只用一个提示词,你就能得到 画面+ 对白+唇动对齐+拟音音效 一气呵成的视频。 Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司,以及 OpenAI、谷 歌、阿里、字节等科技巨头,纷纷入局。 但无论画质如何进步,视频还是「哑巴」—— 你可以让人物奔跑、翻转,甚至做出慢动作,但如果想让角色说话、听到风声、脚步声,甚至感受到炒 菜时锅里的滋滋声? 对不起,还得自己导音频。 提示语 :90 年代酒吧里的情景喜剧场景,背景墙上的霓虹灯写着 「 ...