可灵 O1:多模态视频创作的“大一统时刻”终于到来
Jing Ji Guan Cha Wang·2025-12-03 02:06

营销快讯 当所有内容平台都在谈论"AI 视频的下一秒",可灵 O1 的出现让这句口号第一次有了真正的技术感落 地。它不是一个新功能,也不是单一模型能力的升级,而是一种创作范式的重构——一个从语义理解到 视频生产全链路统一的"大一统多模态引擎"。它试图回答的问题并不新鲜:视频创作为什么仍然复杂、 碎片、割裂?而它提供的答案,则是以 MVL(Multi-modal Visual Language,多模态视觉语言)为底层 逻辑,把一切创作行为都收束到"理解指令"这一核心动作之上。 在可灵 O1 的语境里,用户上传的图片、视频、文字、角色、场景都不再是"素材",而是语义矩阵的一 部分。模型不再区分模态类型,而是像一个真正理解镜头语言的导演,把所有输入视为指令,并在同一 个推理体系内完成从生成到编辑的全部过程——不跳模型、不切工具,也无需在多个任务间重新建立语 境。一个创作者提出的"换天空、删路人、保持角色一致"在过去意味着复杂的 masking、跟踪、调色与 补帧,而在这里,它只是一次对话。 这正是"大一统"的力量。 可灵 O1 将参考生视频、文生视频、首尾帧生成、内容增删、风格重绘、镜头延展等任务拉入同一条语 义链 ...