Workflow
视频生成
icon
Search documents
Grok-4,马斯克口中地表最强AI
Sou Hu Cai Jing· 2025-07-11 12:58
撰文 / 涂彦平 编辑 / 黄大路 2025年7月10日,马斯克旗下xAI公司发布了AI模型Grok-4。这个被他称为"世界上最聪明的AI"在各个AI基准测试中开 启了屠榜模式。 先说说xAI,这家公司2023年7月12日成立,到今天将将两年。 公司创立之初,马斯克曾表示,构建xAI的目标是要专注于回答更深层次的科学问题,期望未来可以用AI去帮助人们 解决复杂的科学和数学问题并且理解宇宙。 2025年1月16日,xAI上线推出网页版Grok AI聊天机器人。2月17日,xAI发布Grok-3聊天机器人。然后是刚刚,发布了 新一代Grok-4大模型。 目前,Grok-4已经开启订阅。Grok-4系列包含Grok-4和Grok-4 Heavy两个版本,前者月费30美元,后者月费300美元。 这是目前最昂贵的AI订阅计划。Grok-3则维持免费开放。 设计 / 柴文静 失之东隅,收之桑榆。这句话放在马斯克身上再贴切不过了。 灰溜溜从白宫离开,与特朗普撕破脸,被大而美法案背刺,气得建立美国党,想玩政治反被政治玩。换个人都得自闭 了,但老马转头就在AI赛道上搞了把大的。 这个被马斯克自己视作地表最强的AI究竟是什么成色 ...
实测Vidu Q1参考生功能,看到诸葛亮丘吉尔拿破仑在长城拍照留念
机器之心· 2025-07-11 08:27
机器之心报道 看到这里,大概就可以看出 Vidu Q1 参考生功能的不寻常之处了。 编辑:Youli 这次真的不一样,遇到了「想象力的神」! 以前常说「要把自己活成一支队伍」,如今感谢 AI,真的实现了。 最近,生数科技旗下 AI 视频模型 Vidu Q1 推出参考生功能,极大简化传统内容生产流程,真正实现「一个人就是一个剧组」! 首先,我们来看一个视频: 这几个人物形象大家应该都很熟悉。 摇着羽扇、说着「想不到世间还有如此厚颜无耻之人」出现在各大鬼畜视频中的诸葛亮,英国铁血首相丘吉尔,以及战绩可查的拿破仑,如今他们跨越时空,围 坐在会议室中密切交谈,实现「世纪大会晤」! 如果用常规的 AI 图生视频来做的话,一般要经过写脚本、文生图 / P 图 / 融图、图片生成、图生视频、成片等步骤,但实际上,这里只用了三张图片和 Vidu Q1 的 参考生功能! 就像把大象放进冰箱只需要三步一样,这里也只需要三个步骤:找到上传照片、写提示词、成片。 更炫技的操作是,X 网友 Alex,她是一名艺术家兼程序员,在她的操作下,1989 年版本的蝙蝠侠与 1993 年版的侏罗纪公园霸王龙,不仅同框出现,还上演激烈 「对打」, ...
写了两万字综述 - 视频未来帧合成:从确定性到生成性方法
自动驾驶之心· 2025-07-08 12:45
现在在做 camera ready 版本,如果大家有 insight 或者文献补充欢迎留言 作者 | hzwer 黄哲威 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1918322086205718663 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 本来是去年想投个IJCAI survey track练手的,一开始只写了七页,结果出了一些事故desk reject 后来修修改改投期刊,补到二十多页,终于可以发表了 希望能比 deep research 自动生成的水平高一些 论文链接:https://arxiv.org/abs/2401.14718 摘要:未来帧合成(Future Frame Synthesis, FFS)的目标是基于现有内容生成未来的帧序列,强调合成方 面,扩展了视频帧预测的范围。本综述全面回顾了FFS领域的现有研究,涵盖了常用的基准数据集和代表性 算法。我们讨论了该领域的关键挑战,并追溯了FFS在 ...
马斯克:AI视频生成正按光速推进。
news flash· 2025-07-07 14:25
马斯克:AI视频生成正按光速推进。 ...
分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型(ICCV'25)
自动驾驶之心· 2025-07-07 12:17
写在前面 & 笔者的个人理解 扩散模型在自动驾驶场景视频生成中已经展现出比较有前景的视觉生成质量。然而,现有的基于视频扩散的世界模型在灵活长度、长时序预测以及轨迹规划方面 仍存在不足。这是因为传统视频扩散模型依赖于对固定长度帧序列的全局联合分布建模,而非逐步构建每个时间下的局部化分布。本研究提出 Epona ,一种自回 归扩散世界模型,通过两项关键创新实现局部时空分布建模:1) 解耦的时空分解 ,将时间动态建模与细粒度未来世界生成分离;2) 模块化的轨迹与视频预测 ,通过端到端框架无缝整合运动规划与视觉建模。本文的架构通过引入一种新的"链式前向训练策略"(chain-of-forward training strategy),在实现高分辨率、长持 续时间生成的同时解决了自回归循环中的误差累积问题。实验结果表明,与现有方法相比,Epona在FVD指标上提升7.4%,预测时长可达数分钟。该世界模型进一 步可作为实时端到端规划器,在NAVSIM基准测试中优于现有端到端规划器。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 地平线联合 ...
视频模型赛道“热闹”起来了,但变现仍不容易
Di Yi Cai Jing· 2025-07-05 08:19
视频大模型行业暂时不会出现一家独大的局面。 近一个月的视频模型产品更新之前,Sora的热度已带动一批新品面世。包括2024年上半年的爱诗科技PixVerse、Runway Gen-3、Luma Dream Machine,下半 年的生数科技Vidu、智谱清影、字节跳动PixelDance、MiniMax海螺等。 一方面,视频模型你追我赶。据AGI-Eval(上海交通大学、同济大学等高校和机构合作发布的大模型评测社区),2024年12月,PixVerse-V3、可灵1.5、 Video-01的得分(评测维度包括视频-文本一致性、视频质量、运动质量等)超越Sora。 但同时,受限于技术成熟度、商业化、成本高等因素,视频模型的创业热度并不及AI应用层,主要由大型互联网/科技企业组成,由爱诗科技、生数科技、 Pika、Runway、MiniMax等明星创业公司补充。 此前,MiniMax创始人闫俊杰表示,视频类工作复杂度比文本更难,上下文文本很长,一个5秒的视频就有几M(兆字节,MB)大小,但文本领域,5秒看 100个字的大小可能都不到1K(千字节,KB),这是几千倍的存储差距。该差距带来的挑战便是如果通过基本文本构 ...
百度跟进视频生成模型 基础版限时免费打破行业壁垒
与很多技术驱动型的视频生成模型不同,百度MuseSteamer 的研发启动并非技术驱动,是被广告主用需 求"催生"出来的。 "去年年初行业就在卷视频生成模型,我们不是没看,但真正推动自研的,是商业体系收到的具体需 求。"陈一凡回忆道,2024年年底短剧投流市场爆发,传统剪辑和生图已无法满足创意需求,就有代理 商和广告主向百度提出:"能不能用短剧内容做剪辑?""科幻场景拍不出来,能生成吗?" 面对这些需求,百度商业团队曾有两个选择:接入外部模型,或自己动手。但当他们尝试反馈优化建议 时,却发现外部模型迭代周期太长。于是今年春节后,团队决定自研,项目代号就是"MuseSteamer"。 在百度MuseSteamer的自研过程中,不只是短剧行业,更多的行业客户向百度反馈"希望能用大模型提高 广告质量"。 陈一凡表示,由百度商业研发团队推出的MuseSteamer正是来自这些需求的推动。"今天演示的视频偏动 漫类型,其实是大概一个多月前,有客户想用类似动漫的方式去展现创意广告,百度大概用了一个多月 的时间补足动漫类数据,对模型进行了调整。还有,当发现广告创意需要更丰富的运镜时,团队两周内 就研发出运镜语言模型,教会A ...
百度自研的视频生成模型还是来了
Xin Lang Cai Jing· 2025-07-04 01:39
智通财经记者 | 肖芳 一位百度内部人士也向智通财经解释称,去年李彦宏在内部讲话中还提到,基于多模态的需求,可以做一些相对特定的 视频生成场景。百度前段时间发布的罗永浩数字人以及此次发布的视频生成模型都是基于特定场景和特定需求的,这是 百度内部一直在探索的。 目前,市场上大多数视频生成模型都是技术驱动型,即通过不断优化算法、增加算力、丰富数据等技术手段,提升模型 性能和生成视频的质量,以满足用户需求和市场竞争,但模型并没有确定性的应用场景,而是随着模型能力的提升进行 持续探索。相比之下,百度视频生成模型最大的不同就是商业驱动,即先有了明确的商业需求,再结合需求研发模型。 百度商业体系商业研发总经理刘林向界面新闻透露,MuseSteamer项目在今年春节之后才开始立项,研发团队有几十个 人,到上线有效的研发时间只有3个月。 刘林表示,MuseSteamer之所以能够在较短时间上线,是因为其在技术上并不是完全从零起步。擎舵平台在多模态生成 上本身就有了一定的技术积累,百度商业体系在模型训练框架推理、卡片调优上也有一些积累,能够快速的延续过来。 智通财经编辑 | 文姝琪 在百度AI DAY科技开放日上,百度移动生态 ...
可灵悄悄赚了1个亿
36氪· 2025-07-03 23:59
Core Viewpoint - The commercialization of video generation has made significant progress, with revenues from marketing and promotion now balancing out with investments [1][24]. Group 1: AI Video Generation Trends - AI-generated ASMR and animal sports videos have gained immense popularity on short video platforms, attracting millions of likes and shares [2][3]. - The release of Google's video generation model Veo3 in May has been a game-changer, enabling high-quality AI videos with synchronized audio, thus transforming content creation [5][11]. - The rapid advancement of AI content creation tools has led to a surge in creators leveraging these technologies, with many accounts emerging on short video platforms [3][6]. Group 2: Market Dynamics and Competition - The competitive landscape is evolving, with various players like 可灵 and 即梦 making strides in the AI video generation space, alongside Google's efforts [10][14]. - 可灵's video generation model has achieved over 30% market share, surpassing competitors like Runway and Veo-2 [14]. - The industry is witnessing a shift in user preferences, with creators increasingly relying on video generation tools for efficiency, as evidenced by a threefold increase in download rates for generated images [15][19]. Group 3: Financial Performance and Projections - 可灵 is projected to achieve an annual recurring revenue (ARR) exceeding $100 million by March 2025, outpacing other AI products like Cursor [17][19]. - The annual revenue for leading video generation products is expected to reach $1 billion this year, with potential growth to $5-10 billion next year [19]. - Despite the positive outlook, industry leaders acknowledge that the commercialization process is still in its early stages, with many challenges remaining [25][26].
画到哪,动到哪!字节跳动发布视频生成「神笔马良」ATI,已开源!
机器之心· 2025-07-02 10:40
为了解决这一问题,字节跳动提出了 ATI ——一种全新的、以「轨迹为指令」的可控视频生成框架。 ATI 的核心理念是: 将用户在输入图像上手绘的任意轨迹,转化为驱动物体与摄像机运动的显式控制 信号,并以统一的潜在空间建模方式注入视频生成过程。 这使得视频创作从「参数调控」转变为「可 视化创意」,让用户「画到哪,动到哪」,以直观方式实现帧级精准控制。 Angtian Wang 是字节跳动的研究员,研究方向包括视频生成、3D 视觉、differentiable rendering。 博士毕业于约翰霍普金斯(Johns Hopkins University)大学。师从 Dr. Alan Yuille。 近年来,随着扩散模型(Diffusion Models)、Transformer 架构与高性能视觉理解模型的蓬勃发 展 , 视 频 生 成 任 务 取 得 了 令 人 瞩 目 的 进 展 。 从 静 态 图 像 生 成 视 频 的 任 务 ( Image-to-Video generation)尤其受到关注,其关键优势在于:能够以最小的信息输入生成具有丰富时间连续性与空间 一致性的动态内容。 然而,尽管生成质量不断提 ...