视频生成模型

Search documents
写了两万字综述 - 视频未来帧合成:从确定性到生成性方法
自动驾驶之心· 2025-07-08 12:45
现在在做 camera ready 版本,如果大家有 insight 或者文献补充欢迎留言 作者 | hzwer 黄哲威 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1918322086205718663 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 本来是去年想投个IJCAI survey track练手的,一开始只写了七页,结果出了一些事故desk reject 后来修修改改投期刊,补到二十多页,终于可以发表了 希望能比 deep research 自动生成的水平高一些 论文链接:https://arxiv.org/abs/2401.14718 摘要:未来帧合成(Future Frame Synthesis, FFS)的目标是基于现有内容生成未来的帧序列,强调合成方 面,扩展了视频帧预测的范围。本综述全面回顾了FFS领域的现有研究,涵盖了常用的基准数据集和代表性 算法。我们讨论了该领域的关键挑战,并追溯了FFS在 ...
百度跟进视频生成模型 基础版限时免费打破行业壁垒
Zhong Guo Jing Ying Bao· 2025-07-04 12:48
与很多技术驱动型的视频生成模型不同,百度MuseSteamer 的研发启动并非技术驱动,是被广告主用需 求"催生"出来的。 "去年年初行业就在卷视频生成模型,我们不是没看,但真正推动自研的,是商业体系收到的具体需 求。"陈一凡回忆道,2024年年底短剧投流市场爆发,传统剪辑和生图已无法满足创意需求,就有代理 商和广告主向百度提出:"能不能用短剧内容做剪辑?""科幻场景拍不出来,能生成吗?" 面对这些需求,百度商业团队曾有两个选择:接入外部模型,或自己动手。但当他们尝试反馈优化建议 时,却发现外部模型迭代周期太长。于是今年春节后,团队决定自研,项目代号就是"MuseSteamer"。 在百度MuseSteamer的自研过程中,不只是短剧行业,更多的行业客户向百度反馈"希望能用大模型提高 广告质量"。 陈一凡表示,由百度商业研发团队推出的MuseSteamer正是来自这些需求的推动。"今天演示的视频偏动 漫类型,其实是大概一个多月前,有客户想用类似动漫的方式去展现创意广告,百度大概用了一个多月 的时间补足动漫类数据,对模型进行了调整。还有,当发现广告创意需要更丰富的运镜时,团队两周内 就研发出运镜语言模型,教会A ...
百度自研的视频生成模型还是来了
Xin Lang Cai Jing· 2025-07-04 01:39
智通财经记者 | 肖芳 一位百度内部人士也向智通财经解释称,去年李彦宏在内部讲话中还提到,基于多模态的需求,可以做一些相对特定的 视频生成场景。百度前段时间发布的罗永浩数字人以及此次发布的视频生成模型都是基于特定场景和特定需求的,这是 百度内部一直在探索的。 目前,市场上大多数视频生成模型都是技术驱动型,即通过不断优化算法、增加算力、丰富数据等技术手段,提升模型 性能和生成视频的质量,以满足用户需求和市场竞争,但模型并没有确定性的应用场景,而是随着模型能力的提升进行 持续探索。相比之下,百度视频生成模型最大的不同就是商业驱动,即先有了明确的商业需求,再结合需求研发模型。 百度商业体系商业研发总经理刘林向界面新闻透露,MuseSteamer项目在今年春节之后才开始立项,研发团队有几十个 人,到上线有效的研发时间只有3个月。 刘林表示,MuseSteamer之所以能够在较短时间上线,是因为其在技术上并不是完全从零起步。擎舵平台在多模态生成 上本身就有了一定的技术积累,百度商业体系在模型训练框架推理、卡片调优上也有一些积累,能够快速的延续过来。 智通财经编辑 | 文姝琪 在百度AI DAY科技开放日上,百度移动生态 ...
豆包视频生成模型Seedance 1.0 pro正式发布 实时语音模型同步全量上线
news flash· 2025-06-11 05:29
今日,在"2025火山引擎春季FORCE原动力大会"上,豆包视频生成模型Seedance1.0pro正式发布。火山 引擎总裁谭待表示,Seedance1.0pro可以做到无缝多镜头叙事、多动作及随心运镜,并且稳定运动并保 持真实美感。而Seedance1.0pro的价格为0.015元/千tokens(语言生成模型在运作时的最小工作单元)。此 外,会上谭待还宣布豆包实时语音模型全量上线,正式发布了语音博客模型。(每日经济新闻) ...
字节跳动推出视频模型Seedance 1.0 pro
news flash· 2025-06-11 03:41
字节跳动推出视频模型Seedance 1.0 pro 金十数据6月11日讯,字节跳动旗下火山引擎举办FORCE原动力大会,在会上,火山引擎发布了视频生 成模型Seedance 1.0 pro。 ...
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
机器之心· 2025-05-06 04:11
机器之心发布 机器之心编辑部 随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域, 经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获 第一。 视频细粒度文本描述 视频细粒度文本描述模型(video detailed caption)为视频生成模型提供标签,是视频生成的基础。复旦大学等机构提出了 Cockatiel 方法 [3],该方法在权威的 VDC(Video Detailed Captioning 视频细粒度文本描述评测集)榜单上获得第一名,超过了包括通义千问 2-VL、VILA1.5、LLaVA-OneVision,Gemini-1.5 等在内的 多个主流视频理解多模态大模型。 论文标题:Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption ...
阿里开源版Sora上线即屠榜,4070就能跑,免费商用
量子位· 2025-02-26 03:51
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 开源模型,还是得看杭州。 前脚发完QwQ-Max,阿里就在深夜开源了视频生成模型 Wan 2.1 ,14B参数直接 屠榜VBench ,什么Sora、Gen-3通通不是它的对手。 从官方Demo中看,复杂运动细节非常到位, 5个人一起跳hip-hop也能做到动作同步 。 而且在静态图像生成中都还是老大难问题的 文字 ,现在也被万相给攻克了。 当然了,14B的参数量说大不大,但在个人消费级显卡上本地部署还是比较吃力的。 不过14B (支持分辨率720P) 之外,还有一个1.3B的小号版本 (支持分辨率480P) ,在一块 4090上占用显存是8个多GB ,消耗时间4 分21秒。 如此观之,用12GB的 4070,也是能带动的 。 | | | | Computational Efficiency of Wan2.1 | | | | | --- | --- | --- | --- | --- | --- | --- | | | | | (time(s)/ peak memory(G)) | | | | | GPU | Model | Resolution | ...
晚点独家丨蚂蚁投资视频生成模型公司爱诗科技;奈雪投资人加入茶颜悦色
晚点LatePost· 2024-04-23 11:12
本期关注企业:蚂蚁金服、茶颜悦色、爱诗科技。 蚂蚁集团投资视频生成模型公司爱诗科技,由字节前视觉技术负责人王长虎创立 今年 2 月 OpenAI 发布 Sora 后,投资人对视频生成模型的判断更趋割裂:有人认为,OpenAI 已碾压其他公司, 创业机会不再;另一派观点是,Sora 证明视频生成模型路线清晰、成果可复制,这反而会给更多公司机会。 乐观者已用钱做出了选择。《晚点 LatePost》独家获悉,蚂蚁集团已于近期独家投资了中国视频生成大模型公司 爱诗科技的 A2 轮,该轮金额超过 1 亿元人民币。 接近蚂蚁的人士说,蚂蚁除自研大模型并落地应用外,也在持续关注行业的前瞻探索,围绕大模型技术能力、产 业应用和 AI 算力等核心技术和生态,已陆续投资了智谱 AI、月之暗面等大模型创业公司和专注多模态的生数科 技等。 爱诗科技成立于 2023 年 4 月,目前团队约有 30 人,创始人兼 CEO 王长虎曾任字节跳动视觉技术负责人,在视 频理解、数据处理、内容安全和视频生成等领域都有积累。 爱诗科技既做视频生成大模型,又做面向内容创作者和普通人的视频生成产品。 爱诗科技称自己 2023 年 6 月以来就尝试 Di ...