Workflow
视频模型
icon
Search documents
视频模型赛道“热闹”起来,变现仍是大难题
Huan Qiu Wang· 2025-07-06 02:16
【环球网财经综合报道】近一个月来,视频模型领域似乎迎来了久违的喧嚣。生数科技将其视频模型Vidu更新至可一键生成32秒视频,并支持音视频合成与 4D生成;MiniMax推出海螺Hailuo-02,实现最高1080P、最长10秒的超清视频端到端生成;百度也发布了首个图生视频大模型MuseSteamer,瞄准广告商等 专业视频内容创作者。 尽管AI领域的Agent(智能体)正备受资本追捧,视频模型的热度相对有限。瑞银研报指出,视频模型训练所需的视频语料内容限制,使得该领域的竞争强 度预计不及大语言模型。尽管如此,以大型互联网/科技企业为主导,辅以爱诗科技、生数科技、MiniMax等明星创业公司组成的"战队",正借着基础模型效 率提升的东风,加速产品迭代与商业化探索。 回顾过去,Sora的热度已催生了一波新品,从2024年初的爱诗科技PixVerse到如今的生数科技Vidu、智谱清影、字节跳动PixelDance等,竞争日趋激烈。据 AGI-Eval评测,部分模型如PixVerse-V3等已超越Sora。但与AI应用层的创业热潮相比,视频模型创业仍显克制,主要因为技术成熟度、高昂成本及商业化路 径不清晰等因素。 M ...
视频模型赛道“热闹”起来了,但变现仍不容易
第一财经· 2025-07-05 11:44
2025.07. 05 本文字数:2033,阅读时长大约4分钟 作者 | 第一财经 吕倩 近一个月,多款视频模型新品发布,包括生数科技视频模型Vidu更新至可一键生成32秒视频,支持 音视频合成与4D生成;MiniMax发布海螺Hailuo-02,支持最高1080P、最长10秒的超清视频端到端 生成;百度(9888.HK)发布首个图生视频大模型MuseSteamer,面向包括广告商在内的专业视频内 容创作者。 但在过去几年,这一赛道并不被市场看好。 对比AI领域目前正被资本追捧的Agent(智能体),视频模型热度并不算太高。瑞银(UBS)研报认 为,视频模型领域的竞争不会像大语言模型领域的竞争那样激烈,主要是受视频模型训练所需的视频 语料内容所限。但同时,目前市面上由大厂与明星创业公司组成的战队,正在基础模型效率提高的背 景下,加快产品更新与商业化落地。 | App | Model | Monthly Standard | Monthly | Credits per | Length per | Cost (US$) | | --- | --- | --- | --- | --- | --- | --- | ...
视频模型赛道“热闹”起来了,但变现仍不容易
Di Yi Cai Jing· 2025-07-05 08:19
视频大模型行业暂时不会出现一家独大的局面。 近一个月的视频模型产品更新之前,Sora的热度已带动一批新品面世。包括2024年上半年的爱诗科技PixVerse、Runway Gen-3、Luma Dream Machine,下半 年的生数科技Vidu、智谱清影、字节跳动PixelDance、MiniMax海螺等。 一方面,视频模型你追我赶。据AGI-Eval(上海交通大学、同济大学等高校和机构合作发布的大模型评测社区),2024年12月,PixVerse-V3、可灵1.5、 Video-01的得分(评测维度包括视频-文本一致性、视频质量、运动质量等)超越Sora。 但同时,受限于技术成熟度、商业化、成本高等因素,视频模型的创业热度并不及AI应用层,主要由大型互联网/科技企业组成,由爱诗科技、生数科技、 Pika、Runway、MiniMax等明星创业公司补充。 此前,MiniMax创始人闫俊杰表示,视频类工作复杂度比文本更难,上下文文本很长,一个5秒的视频就有几M(兆字节,MB)大小,但文本领域,5秒看 100个字的大小可能都不到1K(千字节,KB),这是几千倍的存储差距。该差距带来的挑战便是如果通过基本文本构 ...
终于有AI视频模型,解决了体操难题。
数字生命卡兹克· 2025-06-18 19:08
前天MiniMax的M1文章里,我说MiniMax得掏一个视频模型出来吧。 于是,果然,前天深夜,他们发了Hailuo 02。 这个模型,前天深夜还不能用,还没正式上线,但是放了预告片。 他们的预告片,给我看的鸡皮疙瘩起来了,我给大家看一眼。 不是,这真的太离谱了,第一次,见到能生成杂技动作的AI视频模型,这个肢体表演和动作幅度,你们可以去Veo3之类的试试,是完全达不到的。 我转完朋友圈,朋友都惊了... 直接冲着所有视频模型的弱点开大。。。 所有人其实都知道,体操,被誉为AI视频的图灵时刻。 谁能解决体操的视频生成问题,谁就是真神。 而杂技的难度,也仅次于体操了。 所以昨天白天Hailuo 02上线了之后,我就直接做了一波新鲜的测试。 比如上周末,我二刷了《碟中谍8》。 虽然前面的文戏又臭又长让人犯困,但到了熟悉的动作戏段落,看到阿汤哥又是潜入深海又是高空扒飞机,我还是真情实感地喊出了牛逼。 一个六旬老人,兢兢业业跑了三十年,不顾安危,一直用血肉之躯挑战mission impossible,就为了让你在银幕上看到最炸裂的视觉效果,我想不出 比这更热血的事了。 那时候我在电影院里还在感慨,扒飞机这样的动作, ...
从案例分析到提示词写作,手把手教你制作最火爆的AI视频
歸藏的AI工具箱· 2025-06-18 06:57
一个大猩猩或者其他动物对着镜头絮叨,要不就是各种虚构的历史事件的采访。 每一个点赞和播放都很高不管是在国内还是海外。 虽然很无聊但是刷到就看的停不下来,即使是我这种经常接触 AI 内容的人都是如此。 这种品类甚至都渗透到了广告和营销的领域。 ins 上有个牙医诊所每天都发广告,每个播放都只有几千,但是换成"大脚男孩"之后他的广告播放高达 56 万次! 大家好我是歸藏(guizang),今天教大家制作现在最火的 AI 视频品类。 无论你是否关注 AI 最近肯定在不同的社交媒体上刷到了这类视频。 有了 Veo3 之后 AI 视频的制作成本下降了非常多。 现在可能是你入门 AI 视频制作非常好的机会,只需要两次生成简单的合并两段视频,你的作品就已经完成了。 你可能以为上面这些视频的点子都是创作者自己想的,但我要告诉你,其实不是。 上面大部分爆火的 AI 视频几乎从构思到提示词到生成全是 AI 为主, 人类需要做的事情只有挑选点子,生成和复制提示词而已。 所以这篇内容我不只会教你如何用视频模型,我还会 教你用各种工具分析视频从而生成新的创意,给你提示词模板,让你从创意到生成全部自动化。 我这个流程其实接近工程化了,你 ...
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
量子位· 2025-06-10 07:35
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 为什么语言模型能从预测下一个词中学到很多,而视频模型却从预测下一帧中学到很少? 这是UC伯克利大学计算机副教授 Sergey Levine 最新提出的灵魂一问。 他同时是Google Brain的研究员,参与了Google知名机器人大模型PALM-E、RT1和RT2等项目。 Sergey Levine在谷歌学术的被引用次数高达18万次。 "柏拉图洞穴"是一个很古老的哲学比喻,通常被用来说明人们对世界认知的局限性。 在文章的开头,作者提到人工智能就是在研究能够反映人类智能的灵活性和适应性的假想智能。 一些研究者推测,人类心智的复杂性和灵活性源自于大脑中应用的一个 单一算法 ,通过这个算法可以实现所有多样化的能力。 也就是说,AI如果能复现这个终极算法,人工智能就能通过经验自主获取多元能力,达到人类智能的高度。 在这个探索过程中,语言模型取得了非常成功的突破。 甚至,LLMs实现能力跃升背后的算法( 下一词预测+强化学习微调 ),也非常简单。 单一终极算法 假设似乎就是AI模型的答案…… 然而,这个假设对视频模型并不适用。 语言模型与视频模型的对比 Serge ...
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
机器之心· 2025-06-10 03:58
机器之心报道 编辑:张倩、泽南 为什么语言模型很成功,视频模型还是那么弱? 「我一直很困惑,语言模型怎么能从下一个 token 预测中学到这么多,而视频模型从下一帧预测中学到的却那么少?难道是因为大模型(LLM)其实是伪装的大脑 扫描仪?」 近日,加州大学伯克利分校副教授、强化学习大牛 Sergey Levine 发出了一记灵魂拷问。 由此进一步思索,我们目前探索 AGI 的方向,是否也到了需要调整的阶段了? AI 技术在快速发展,人们对于 AI 能力的上限,以及人脑和电脑异同的思考也越来越深入。上周末, OpenAI 联合创始人 Ilya Sutskever 在演讲中就曾提到:既然大 脑是台生物计算机,那么数字计算机应该也能做所有同样的事。 然而在学术界,也有很多人持不同态度,Sergey Levine 就是一位这样的学者。 他在昨日发布的一篇博客中表示, 当前的大语言模型(LLM)只是对人类大脑和思维的间接「扫描」。这些模型如同被困在洞穴之中,只能看到人类智慧的「投 影」,并试图通过这些「投影」来逆向推导出产生它们的思维过程。这种「逆向工程」并不能代替真正的思维 。 他的观点在机器学习社区获得了不少认同。 ...
Veo3和FLOW一手实测:谷歌这次成了,这次视频创作可能彻底变天
歸藏的AI工具箱· 2025-05-21 07:18
试了一下谷歌昨晚发布的视频模型Veo3和AI视频创作产品FLOW,实在是太强了, 这个模型会跟4o的图像模 型一样将视频模型带到下一个时代。 Veo3 支持在生成视频的时候同时生成对应的环境音、语音,而且语音支持唇形同步,这个简直对一些剪 辑软件、视频 Agent 和数字人产品是降维打击,视频生成的可用性一下提升了一大截。 在FLOW这里可以生成图片和视频,支持视频延长和剪短,最后可以将你挑选好的视频直接剪辑为完整 的视频。 Veo 3 这个声音真的神来一笔一下子让视频生成多了很多应用场景,视频模型时代变了。 这篇文章我会发布我所有的 一手 Veo3 视频模型测试结果和对应的应用场景,同时还会详细介绍 FLOW 这个 产品如何使用。 Veo 3 测试 FLOW 里面只支持英文提示词,为了方便理解我会将提示词翻译为中文展示* 先简单介绍一下 Veo3 和 FLOW 的特性: 首先测试了一下他的语音生成和唇形同步能力,即使是小猫跟人不一样唇形同步也是很准确的,而且所有的音 效都非常精准。 一只可爱的拟人化小猫刚刚进入学校,它背着自己的行李,好奇地打量着一切,嘴里还不停地嘀咕着 Veo 3居然可以准确的生成游戏的画 ...