Workflow
AIGC视频创作
icon
Search documents
视频生成Prompt何须仅是文字!字节&港中文发布Video-As-Prompt
机器之心· 2025-11-18 05:08
本工作由第一作者在字节跳动智创北美团队实习期间完成。第一作者卞宇轩目前为香港中文大学计算机科学与工程系博士二年级学生,研究方向为可控视频生 成,师从徐强教授,并曾在字节跳动、腾讯等公司实习。个人主页:https://yxbian23.github.io/ 视频创作中,你是否曾希望复刻变成 Labubu 的特效,重现吉卜力风格化,跳出短视频平台爆火的同款舞蹈,或模仿复杂有趣的希区柯克运镜? 在现在的 AI 视频生成中,这些依赖抽象语义控制的创作,因缺乏统一的条件表征,实现起来往往异常困难。 最基础和直接的想法是针对每一种抽象语义单独训练 LoRA 或针对某一类语义条件设计专门的模型架构完成针对性的特征提取和可控生成。 然而,语义条件可能无穷无尽,一个条件训练一个模型会导致实际使用非常复杂,计算消耗非常庞大,且面对未曾训练的其他语义条件,模型没有任何泛化性 能;针对某一类语义设计模型架构一定程度上在单独子集解决了这个问题(例如:相机控制,风格迁移),但面对着不同语义类别,仍需要不断切换模型,其任 务专一的设计也无法完成不同语义类别的统一建模,阻碍了统一模型和模型规模化的进展。 为了解决这一痛点, 香港中文大学与字 ...
SIGGRAPH Asia 2025|电影级运镜一键克隆!港中文&快手可灵团队发布CamCloneMaster
机器之心· 2025-10-22 06:32
本文第一作者罗亚文,香港中文大学 MMLab 博士一年级在读,研究方向为视频生成,导师为薛天帆教授。个人主页: https://luo0207.github.io/yawenluo/ 作为视频创作者,你是否曾梦想复刻《盗梦空间》里颠覆物理的旋转镜头,或是重现《泰坦尼克号》船头经典的追踪运镜? 在 AI 视频生成中,这些依赖精确相机运动的创意,实现起来却往往异常困难。 一个直接的想法是先用相机位姿估计模型从参考视频中提取相机参数,然后使用相机参数作为控制条件引导视频生成过程。 然而,这条看似容易的路径,实则充满了陷阱:现实场景中的动态物体和复杂遮挡关系,常常导致模型估算出的相机参数出现偏差或错误,让生成的运镜效果与 预期大相径庭。 为了解决这一痛点, 香港中文大学与快手可灵团队联合提出了一种全新的运镜可控的视频生成框架 CamCloneMaster 。它引入了一种「参考即用」的新范式,用 户只需提供一段参考视频,模型就能直接「克隆」其相机运动并应用于新内容,从根本上告别了对相机参数的依赖。 该工作被计算机图形学顶级会议 SIGGRAPH Asia 2025 接收,其训练、测试代码和高质量渲染数据集 CamClo ...