全球功能最全的视频生成模型来了
量子位·2025-12-17 10:00

坏了,阿里这波是冲着Sora 2去的! 刚刚,阿里发布了新一代 通义万相2.6系列模型 ,一次性覆盖 文生视频 、 图生视频 、 参考生视频 ,以及 图像生成 和 文生图 ,是目前全 球功能最全的视频生成模型。 在视频创作上,万相2.6不仅推出了Sora2目前还没有的 多 音频驱动生视频 能力,还同步引入了音画同步、多镜头叙事等能力。 梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 像下面这个超火的一刀切ASMR,就是通过文本+音频直接驱动出来的: 再看这个由 文本+图像+音频 驱动的小猫沉浸式吃播,咀嚼声和嘴部动作基本能卡在点上,吃得那叫一个香: 文生图这条线也同步补强了,万相2.6在艺术风格控制、真实感人像、中英文长文本生图以及历史文化IP语义理解等方面的创作能力也都有明 显提升,效果be like: 本着啥都测测的原则,我也专门用不同Prompt和参考素材实测了一轮,总的来说: 万相2.6在音视频参考、声画同步、风格理解方面表现确实不错,但在个别场景下仍会出现画面逻辑偏差的小问题,不过对日常短视频和二创 来讲,已经是可用且好用的水平了。 模型到底表现如何,咱们边唠边测~ 视频生成能力一手实测 实测 ...