Workflow
视频生成
icon
Search documents
免费约饭!加拿大ICML 2025,相聚机器之心人才晚宴
机器之心· 2025-07-01 09:34
2025 年已经过半,AI 领域依旧发展迅速。 作为最直观、最具感官冲击力的技术方向之一,图像、视频生成也迎来了前所未有的突破与热潮。 以扩散模型为代表的生成方法不断刷新着图像合成的质量上限,使得 AI 创作在分辨率、风格控制、语义理 解等维度上实现跨越式提升。而在此基础上,视频生成进一步打开了人们的想象空间。比如 Google 最近发 布的 Veo 3,首次实现了原生音频的同步生成,真正将视频生成带入有声电影时代。 而这些技术的跃升,离不开研究者们不断的交流与合作。 ICML 作为 AI 领域最具影响力的学术会议之一,汇聚了世界顶尖的研究成果。今年 ICML 将于 7 月 13 日至 7 月 19 日在加拿大温哥华会议中心举行。 想必很多从业者将前往现场参会,除了密集高强度的会议日程之外,不妨也为自己预留一些时间,参与一 场更轻松、更自由的线下交流活动「云帆・ICML 2025 AI Talent Meetup」。 这是一次聚焦前沿技术与人才对话的特别聚会,由机器之心与上海人工智能实验室、东方菁汇、全球高校 人工智能学术联盟共同发起,诚邀大家参加「云帆・ICML 2025 AI Talent Meetup」 ...
1080p飞升4k,浙大开源原生超高清视频生成方案,突破AI视频生成清晰度上限
量子位· 2025-07-01 03:51
为什么AI生成的视频总是模糊卡顿?为什么细节纹理经不起放大?为什么动作描述总与画面错位? 其中一个重要原因在于,现有的开源千万级视频数据集分辨率基本低于1080P(1920×1080),且大部分视频的说明(caption)简单粗糙, 不利于大模型学习。 当主流视频生成模型还在720P画质挣扎时,浙江大学APRIL实验室联合多家高校推出的 高质量开源UHD-4K(其中22.4%为8K)文本到视频 数据集——UltraVideo ,破解了这一困局。 浙大APRIL实验室团队 投稿 量子位 | 公众号 QbitAI 该数据集涵盖广泛主题(超过100种),每个视频配备9个结构化字幕及一个总结性字幕(平均824词)。 作为全球首个开源4K/8K超高清视频数据集, UltraVideo 配合结构化语义描述框架,让视频生成实现从"勉强能看"到"影院级质感"的跨越式 进化。 团队基于42K精选视频微调的UltraWan-4K模型,实现三大突破: 方法:四阶过滤打造高质量4K视频数据集 当前视频生成面临两大瓶颈: 分辨率陷阱 :模型在低清数据训练后,直接生成4K视频会出现严重失真。如图2所示,naïve Wan-T2V-1.3 ...
AI穿越直播视频为啥这么火(有事说事)
现在是公元208年。这里最长的成之战 this is 208 adjthe battle of Chengban Slope AI视频生成技术正成为连接古今、沟通中外的崭新纽带,让尘封的历史记忆焕发出新的活力,也让文 化的交流更加生动可及。 如果陈子昂活在今天,或许不需要怆然涕下了——近日,"AI穿越直播"火了。 视频中,AI记者"穿越"至古代场景:或在烽火连天的赤壁战场奔走解说,或"现身"唐朝玄武门之变现 场,或"参与"秦朝长城修筑……这样的作品如雨后春笋般涌现,凭借"第一人称Vlog视角+历史名场 面"的独特叙事,营造出强烈的"在场感",让观众在虚实交融中沉浸式感受历史的鲜活脉搏。 A n xx _ 我现在就在泰国会战的核心现场! I'm right in the heart of the battle of Red Cliffs 技术是把双刃剑,热闹之下也有隐忧。如果说,网上冒出一些让人哭笑不得的内容,比如"秦始皇直播 卖瓷砖""屈原代言粽子",将历史娱乐化,还能让人一眼看破、一笑置之的话,有些AI作品把不同历史 时期的东西凑在一起,却又"一本正经"地讲述,则有可能误导儿童青少年,容易将AI生成的"历史 ...
AI视频大战升级:Sora“神话”被打破?国产模型加速商业化落地
Hua Xia Shi Bao· 2025-06-28 12:01
从东方美学到赛博朋克,从黏土动画到三维写实,《新世界加载中》在不同画风的切换中,开启了全新 的AIGC微短剧叙事。《新世界加载中》是由快手可灵AI与星芒短剧联合出品、由异类Outliers团队制作 的全球首部AI单元故事集,已经在6月26日上线。 多模态大模型带动诸多行业重塑生产环节,由于短剧篇幅较短、市场规模处于快速增长期,且AI生成 能有效降低科幻等题材的特效成本,其成为AIGC最先落地的影视内容。在《新世界加载中》总导演、 异类Outliers创始人陈翔宇看来,AIGC相较于实拍和动画,不仅是效率的提升,更是试错空间的革命性 释放。 2024年开始,一个个视频大模型接踵登场,并在此后不断升级优化,试图抢占竞争高地。而随着AI行 业回归理性,越来越多的企业意识到大模型的商业化落地颇为重要。"可灵AI是一个商业化的产品,确 实有一些商业化目标,但从市场化来看,我们商业化的这些数字更多还是去印证市场和用户需求的可能 性,此刻我们单纯说数字没有什么意义,因为行业还在比较早期阶段,更希望和创作者一起共同探索和 摸索。"可灵AI产品及运营负责人李杨在6月25日接受《华夏时报》记者在内的媒体记者采访时表示。 据记者了 ...
视频生成大模型群雄逐鹿 却不温不火
在OpenAI发布的Sora爆火后,视频大模型开始出圈,国内就涌现出了腾讯混元、快手可灵等一系列视 频大模型,各有不同的优势特色。不过视频生成大模型行业高开低走,一年过去了,依旧处于不温不火 的状态。业内人士认为,一个重要原因在于,用户想看的短视频大都是由真人博主出演,而AI生成不 了这种视频。 对此,经济学家余丰慧告诉《中国经营报》记者:"关于可灵、即梦、混元这三个视频生成大模型,它 们各自拥有独特的技术优势和应用场景。可灵在图像识别和转换方面表现出色,适合需要高质量图像处 理的任务;即梦则以其强大的自然语言处理能力著称,能够根据文本描述生成相应的视频内容,特别适 用于创意产业;而混元结合了前两者的优点,并增加了更多的自定义选项,使其在灵活性和应用范围上 更具优势。因此,不能简单地说哪一个更好,而是应根据具体的使用需求来选择最适合的模型。" 竞争激烈 从国际方面来看,首先当然是OpenAI的Sora,Sora能生成长达60秒的高质量视频,在画面细节、动作流 畅度和镜头语言把控上较为均衡。目前Sora与ChatGPT Plus深度绑定,用户可在对话中一键体验,但因 为模型规模庞大,对GPU算力要求高,生成延迟 ...
AI应用系列报告:AI视频生成:商业化加速,国产厂商表现亮眼
Guoyuan Securities· 2025-06-27 05:13
传媒行业 投资评级 推荐 维持 AI视频生成:商业化加速,国产厂商表现亮眼 ——AI应用系列报告 证券研究报告 2025年6月27日 证券分析师: 李典 邮箱: lidian@gyzq.com.cn SAC执业资格证书编码:S0020516080001 联系人: 郜子娴 邮箱:gaozixian@gyzq.com.cn 报告要点 请务必阅读正文之后的免责条款部分 2 技术路径:从GAN-Transformer-Diffusion Model-DiT,技术演进推动行业进入可商用阶段:20世纪90年代以来,AI视频生成持续迭 代,经历了多个关键技术的突破,经历了从静态图像序列拼接成视频流-GAN-Transformer-Diffusion Model-DiT的技术演进,生成内容 丰富度以及可控性持续提升。Sora验证了Diffusion和Transformer结合的有效性,并带动DiT架构逐渐成为当前重点方向。 行业进入商业化发展快轨,根据Fortune Business Insights预计2032年全球规模突破184亿人民币。根据Fortune Business Insights 测算,2024年AI视频生成 ...
所有爆款 AI 视频一键生成?Hailuo Video Agent 体验
歸藏的AI工具箱· 2025-06-20 08:45
大家好,这里是歸藏(guizang),今天带来新鲜出炉的 Hailuo Video Agent 体验。 前几天我就说随着视频生成模型成本的提高和提示词遵循效果变好,成熟的视频生成 Agent 应该马上就会出 现了。 没想到 MiniMax 先做了 ,他们将会分阶段打造 Hailuo Video Agent。 这个路径是非常务实而正确的,刚好前几天 Andrej Karpathy 也分享了类似的观点,应该先做半自动的钢铁 侠战甲组件,最后做完全自主的机器人。 我们应该专注于构建"钢铁侠战甲"(增强工具),而不是"钢铁侠机器人"(完全自主Agent) 这些产品应 具备自定义 GUI 和用户体验,以加速人类的生成-验证循环,同时仍提供自主性滑块,允许产品随时间变 得更加自主。 刚好今天他们开放了第一个阶段的 Agent 使用权限,我试用了一下。 打磨的非常好,选择你喜欢的模板,点"做同款"就行, 门槛超级低,基本上传图片完事了,真正的有手就 行。 模板覆盖了你能想到的所有AI 视频出圈玩法, 不管是外国山海经还是人像动态写真还是产品广告视频,你能 想到的品类这里都能找到。 然后再来个电商场景吧,产品展示类型的视频应 ...
开源还要IPO?MiniMax不想被遗忘在这个夏天
3 6 Ke· 2025-06-20 04:44
文|周鑫雨 编辑|苏建勋 DeepSeek掀桌后,要想证明自己仍在牌桌上,六小虎(MiniMax、智谱、月之暗面、百川智能、零一万物、阶跃星辰)需要证明自己有同DeepSeek掰手腕的 能力。 此前,月之暗面、智谱已经发布了对标DeepSeek R1的推理模型。近期,六小虎又开始了新一轮的推理模型竞速。 MiniMax另一个证明自己仍然留在牌桌上的证据,则是IPO。 2025年4月,智谱成了六小虎中首家提交上市辅导备案的公司,正式走上IPO之路。而近期,另一家六小虎也有了IPO的迹象——彭博社援引知情人士的信息 称,MiniMax计划最早在今年港股上市,并且已为此次IPO聘请了财务顾问。 先是2025年6月17日凌晨,月之暗面开源了编程大模型Kimi-Dev-72B。在针对AI编程能力的SWE-bench测试中,这个仅有72B参数的模型,成绩超越了671B 参数量的R1。 紧接着,MiniMax效仿OpenAI,在同一日宣布了为期五天的新品发布。截至6月19日,MiniMax已经发布了MoE(混合架构)推理模型M1、视频生成模型 Hailuo 02,以及通用Agent产品MiniMax Agent。 △M1在 ...
Midjourney正式推出V1视频模型
news flash· 2025-06-19 15:12
Midjourney推出视频生成模型V1,主打高性价比、易于上手的视频生成功能,作为其实现"实时模拟世 界"愿景的第一步。用户现在可以通过动画化Midjourney图片或自己的图片来创作短视频,定位为有 趣、易用、美观且价格亲民。入门价格:每月10美元即可使用。 ...
嚯!国产视频模型的物理水准超神了 | 实测MiniMax海螺02
量子位· 2025-06-19 06:25
鱼羊 一水 发自 凹非寺 量子位 | 公众号 QbitAI 满场观众瞩目之下,体操运动员稳稳完成一个跳步动作,然后……突然来了段木上芭蕾??? 这可不是什么网球王子排球少年真人版之类的运动电影特技—— 要知道,前段时间让谷歌出尽了风头的Veo 3,都还在这一挑战面前翻了车,让网友直呼: 体操就是视频生成模型的图灵测试。 新模型名叫Hailuo 02,主打一个"超清画质"、"精准响应": 原生支持1080p,可以hold住 极端复杂的物理场景 。 不仅是体操,搞点城市特技也是信手拈来,并且连玻璃里的倒影都符合真实世界的客观规律。 以上画面, 完全由AI生成 。 没错,这一次 MiniMax视频生成模型上新 ,还真是把"体操"这个AI视频生成的亘古难题给搞定了! △ 图源:@WuxiaRocks 总而言之就是:物理表现有点太强了吧。 如此水准,使得Hailuo 02深夜发布即炸场,海内外网友抹平时差第一时间纷纷玩嗨。 不少网友直言:比Veo 3更好。 值得一提的是,Hailuo 02一发布,也直接冲上了AI视频竞技场图生视频排行榜第二名,在基准测试中超越当红炸子鸡Veo 3。 | | Text to Video ...