生成模型

Search documents
写了两万字综述 - 视频未来帧合成:从确定性到生成性方法
自动驾驶之心· 2025-07-08 12:45
现在在做 camera ready 版本,如果大家有 insight 或者文献补充欢迎留言 作者 | hzwer 黄哲威 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1918322086205718663 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 本来是去年想投个IJCAI survey track练手的,一开始只写了七页,结果出了一些事故desk reject 后来修修改改投期刊,补到二十多页,终于可以发表了 希望能比 deep research 自动生成的水平高一些 论文链接:https://arxiv.org/abs/2401.14718 摘要:未来帧合成(Future Frame Synthesis, FFS)的目标是基于现有内容生成未来的帧序列,强调合成方 面,扩展了视频帧预测的范围。本综述全面回顾了FFS领域的现有研究,涵盖了常用的基准数据集和代表性 算法。我们讨论了该领域的关键挑战,并追溯了FFS在 ...
百度跟进视频生成模型 基础版限时免费打破行业壁垒
Zhong Guo Jing Ying Bao· 2025-07-04 12:48
与很多技术驱动型的视频生成模型不同,百度MuseSteamer 的研发启动并非技术驱动,是被广告主用需 求"催生"出来的。 "去年年初行业就在卷视频生成模型,我们不是没看,但真正推动自研的,是商业体系收到的具体需 求。"陈一凡回忆道,2024年年底短剧投流市场爆发,传统剪辑和生图已无法满足创意需求,就有代理 商和广告主向百度提出:"能不能用短剧内容做剪辑?""科幻场景拍不出来,能生成吗?" 面对这些需求,百度商业团队曾有两个选择:接入外部模型,或自己动手。但当他们尝试反馈优化建议 时,却发现外部模型迭代周期太长。于是今年春节后,团队决定自研,项目代号就是"MuseSteamer"。 在百度MuseSteamer的自研过程中,不只是短剧行业,更多的行业客户向百度反馈"希望能用大模型提高 广告质量"。 陈一凡表示,由百度商业研发团队推出的MuseSteamer正是来自这些需求的推动。"今天演示的视频偏动 漫类型,其实是大概一个多月前,有客户想用类似动漫的方式去展现创意广告,百度大概用了一个多月 的时间补足动漫类数据,对模型进行了调整。还有,当发现广告创意需要更丰富的运镜时,团队两周内 就研发出运镜语言模型,教会A ...
百度自研的视频生成模型还是来了
Xin Lang Cai Jing· 2025-07-04 01:39
智通财经记者 | 肖芳 一位百度内部人士也向智通财经解释称,去年李彦宏在内部讲话中还提到,基于多模态的需求,可以做一些相对特定的 视频生成场景。百度前段时间发布的罗永浩数字人以及此次发布的视频生成模型都是基于特定场景和特定需求的,这是 百度内部一直在探索的。 目前,市场上大多数视频生成模型都是技术驱动型,即通过不断优化算法、增加算力、丰富数据等技术手段,提升模型 性能和生成视频的质量,以满足用户需求和市场竞争,但模型并没有确定性的应用场景,而是随着模型能力的提升进行 持续探索。相比之下,百度视频生成模型最大的不同就是商业驱动,即先有了明确的商业需求,再结合需求研发模型。 百度商业体系商业研发总经理刘林向界面新闻透露,MuseSteamer项目在今年春节之后才开始立项,研发团队有几十个 人,到上线有效的研发时间只有3个月。 刘林表示,MuseSteamer之所以能够在较短时间上线,是因为其在技术上并不是完全从零起步。擎舵平台在多模态生成 上本身就有了一定的技术积累,百度商业体系在模型训练框架推理、卡片调优上也有一些积累,能够快速的延续过来。 智通财经编辑 | 文姝琪 在百度AI DAY科技开放日上,百度移动生态 ...
智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门
机器之心· 2025-07-03 04:14
机器之心发布 机器之心编辑部 2024 年 9 月,智源研究院发布了 统一图像生成模型 OmniGen 。该模型在单一架构内即可支持多种图像生成任务,包括文本生成图像(Text-to-Image Generation)、图像编辑(Image Editing)和主题驱动图像生成(Subject-driven Image Generation)。用户仅需使用多模态的自然语言指令,便可灵活实现上述功 能,无需依赖额外的上下文提示、插件或预处理模块。凭借其功能的高度通用性与架构的高度简洁性,OmniGen 一经发布便获得社区的广泛好评。随后,随着 Gemini 2.0 Flash 和 GPT-4o 等闭源多模态模型的相继发布,构建统一图像生成模型成为当前最受关注的研究与应用方向之一。 在这一背景下,OmniGen 迎来重大技术升级,正式发布 OmniGen2 。新一代模型在保持简洁架构的基础上, 显著增强了上下文理解能力、指令遵循能力和图像生 成质量 。同时,OmniGen2 全面继承了其基座多模态大模型在上下文理解与生成方面的能力, 同时支持图像和文字生成,进一步打通了多模态技术生态 。同时, 模型权重、训练代码及 ...
用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化
机器之心· 2025-06-30 03:18
赵天辰,清华大学电子工程系高能效计算实验室研究生,研究方向主要是:面向视觉生成的高效算法,与软硬件协同设计。以下工作为赵天辰在字节跳动-Seed视 觉部门实习期间完成 近年来,随着视觉生成模型的发展,视觉生成任务的输入序列长度逐渐增长(高分辨率生成,视频多帧生成,可达到 10K-100K)。与输入序列长度呈平方复杂度 的 Attention 操作,成为主要的性能瓶颈(可占据全模型的 60-80% 的开销),有明显的效率优化需求。注意力的稀疏化(Sparse Attention)与低比特量化 (Attention Quantization)为常用的 Attention 优化技巧,在许多现有应用中取得优秀的效果。然而,这些方法在视觉生成模型中,在低稠密度(<50%)与低比特 (纯 INT8/INT4)时面临着显著的性能损失,具有优化的需求。 本文围绕着视觉任务的 "局部性"(Locality)特点,首先提出了系统的分析框架,识别出了视觉生成任务 Attention 优化的关键挑战在于 "多样且分散" 的注意力模 式,并且进一步探索了该模式的产生原因,并揭示了多样且分散的注意力模式,可以被统一为代表 "局部聚合" ...
国产视频生成模型持续发力推动行业发展
Huajin Securities· 2025-06-29 13:47
Investment Rating - The industry investment rating is "Outperform the Market" (maintained) [2][8] Core Insights - The domestic video generation models are continuously advancing, driving industry development. The first global AI unit story collection "New World Loading" premiered recently, showcasing the capabilities of the Kuaishou Keling AI model [5] - Keling AI has achieved significant revenue growth, reaching 150 million yuan in Q1 2025, with nearly 70% of its revenue coming from paid subscriptions by professional users in the self-media and marketing sectors [5] - The top five domestic video generation models have made notable progress, with ByteDance's Seedance 1.0 ranked first, followed by Minimax Hailuo02 and Kuaishou Kling2.0 [5] Summary by Sections Industry Performance - The industry has shown strong relative returns over the past year, with a 34.3% increase in relative returns over 12 months and a 47.59% increase in absolute returns [4] Investment Recommendations - The report suggests focusing on companies such as Zhongwen Online, Yuedu Group, Kaiying Network, Shanghai Film, Kunlun Wanwei, and others, as they are expected to benefit from the ongoing advancements in video generation applications [5]
何恺明CVPR 2025报告深度解读:生成模型如何迈向端到端?
自动驾驶之心· 2025-06-28 13:34
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 写在前面 在深度学习的历史长河中,AlexNet的横空出世曾彻底改写识别模型的命运——它让"逐层训练"成为过去式,端到端学 习从此一统江湖。而今天,当我们望向生成模型的浩瀚星空,扩散模型的多步迭代、自回归模型的时序依赖,是否仍 在重演"前AlexNet时代"的困局? 何恺明老师在 CVPR 2025 workshop上的最新分享 《Towards End-to-End Generative Modeling》 ,正以手术刀般的视 角剖开这场技术演进的历史轮回。他不仅回溯了识别与生成的"硬币双面"关系——一边是数据到语义的抽象流,一边 是噪声到实例的具象流,更带来了MeanFlow这把"瑞士军刀":用平均速度替代复杂积分,让ImageNet生成从250步迭 代压缩到1步完成,FID指标直逼传统多步模型的天花板。 这不禁让人思考:生成模型的"AlexNet时刻"是否已至? 今天,就让我们以何恺明老师的报告为锚点, 回顾 一下生成模型技术丛林的深度漫游,解锁那些正在重塑生成模型范 式的关键思想。 此外,借着这个话题,我们也同步 ...
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
机器之心· 2025-06-28 02:54
本文第一作者是西湖大学博士生冯睿骐,通讯作者为西湖大学人工智能系助理教授吴泰霖。吴泰霖实验 室专注于解决 AI 和科学交叉的核心问题,包含科学仿真、控制、科学发现。 在解决离线强化学习、图片逆问题等任务中,对生成模型的 能量引导 (energy guidance)是一种可 控的生成方法,它构造灵活,适用于各种任务,且允许无额外训练条件生成模型。同时 流匹配 (flow matching)框架作为一种生成模型,近期在分子生成、图片生成等领域中已经展现出巨大潜力。 然而,作为比扩散模型更一般的框架,流匹配允许从几乎任意的源分布以及耦合分布中生成样本。这在 使得它更灵活的同时,也使得能量引导的实现 与扩散模型有根本不同且更加复杂 。因此,对于流匹配 来说,如何得到具有理论保证的能量引导算法仍然是一个挑战。 针对这一问题,作者从理论上推导得到全新能量引导理论框架,并进一步提出多样的实际能量引导算 法,可以根据任务特性进行灵活选择。本工作的主要贡献如下: 本工作首次提出了流匹配能量引导理论框架。 在本框架指导下,本工作提出三大类无需训练的实用流匹配能量引导算法,并可将经典扩散模型 能量引导算法包含为特例。 本工作给出了 ...
MIT终身教授何恺明,入职谷歌了
量子位· 2025-06-26 02:11
目前这一消息已在个人主页同步更新: 一水 发自 凹非寺 量子位 | 公众号 QbitAI AI大牛何恺明最新动向来了! 才刚拿下MIT终身教职没多久,这转眼又 加盟谷歌DeepMind任杰出科学家 。 也是在最近,MIT官网发布公告称: 今年MIT工程学院一共有11位教职人员获得终身教职,而何恺明也在名单中。 要知道他去年3月才正式在MIT开讲,这中间几乎只隔了一年左右时间。 回到这次加盟谷歌,从介绍里可以看到,确切来说他应该算是 兼职(part-time) 。 虽然他本人没有透露更多信息,但某书上已经有自称谷歌员工的网友提前剧透了一波: 他即将加入的是DeepMind 基础研究组 ,直属领导的title是L8——离DeepMind老大哈萨比斯还隔着三个老板的距离。 那么问题来了,已经拥有MIT终身教职的何恺明,为啥又选择和谷歌联手呢? 一扒才知道,原来二者早已多次展开研究合作—— 何恺明其人 先简单回顾一下何恺明的履历。 众所周知,何恺明算是CV领域 (计算机视觉) 的传奇人物。 他本科就读于清华大学物理系,博士师从汤晓鸥,毕业于香港中文大学。 | TITLE | CITED BY | YEAR | | - ...
何恺明CVPR最新讲座PPT上线:走向端到端生成建模
机器之心· 2025-06-19 09:30
机器之心报道 编辑:张倩 生成模型会重现识别模型的历史吗? 今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。除了交流论文、互加好友,很多参会者还参加了个非常有意思的项目 —— 追星。 这个「星」自然是学术明星。从前方发来的实况来看,MIT 副教授何恺明可能是人气最高的那一个。他的讲座全场爆满,还有很多同学晒出了与恺明大神的合 影。 其实,这次现身 CVPR 会场的何恺明有着多重身份,包括但不限于最佳论文奖委员会成员、「Visual Generative Modeling: What's After Diffusion?」workshop 演讲嘉 宾等。 这个 workshop 聚焦的主题是扩散模型之后的视觉生成建模演进方向。 近年来,扩散模型迅速超越了先前的方法,成为视觉生成建模中的主导方法,广泛应用于图像、视频、3D 物体等的生成。然而,这些模型也存在一些显著的局限 性,例如生成速度较慢、生成过程中人类干预有限,以及在模拟复杂分布(如长视频)时面临挑战。 这个 workshop 旨在探索视觉生成建模中能够超越扩散模型的方法,何恺明在活动中做了主题为「Towards End-to-End Generat ...