Workflow
视频生成
icon
Search documents
AI生图之王首发视频大模型,每月10刀,最长20秒,效果超逼真
3 6 Ke· 2025-06-19 03:23
智东西6月19日报道,今日凌晨,AI图像生成顶流Midjourney发布其首款AI视频生成模型V1。 V1支持用户上传Midjourney生成的或外部图像进行视频生成,有手动、自动生成动作提示词两个选项,可设置镜头移动更快的高速运动和相对静止的低速 运动。 从其生成效果来看,V1可以保证在画面背景变化的同时,主人公动作行为依旧连贯且流畅,即使凭空创造的怪物、科幻形象运动也流畅自然。 用户在Midjourney图像生成界面选项点击"Animate Image"就可以体验,最长可生成20秒视频。 目前,Midjourney的所有订阅者都可以体验V1,其会员起订费为10美元(折合人民币约71.9元)/月,用户每次生成视频需从每月预设的信用额度中扣除点 数,类似"按次消耗额度"的机制。Midjourney正在测试为每月60美元订阅费的会员开放"无限制轻松模式"。 Perplexity AI设计师Phi Hoang在X上评价:它超出了我所有的预期。 Phi Hoang在X上评价 V1的发布也意味着Midjourney开启了从图像生成走向全多媒体内容创作的重大转变。不过,相比于视频生成赛道的老玩家,V1的功能并不完善,其 ...
MiniMax秀了波AI杂技视频,视频生成赛道又卷起来了
Di Yi Cai Jing· 2025-06-18 08:47
这仍然只是技术迭代的初期。 AI视频生成赛道又热闹起来了。4月,快手可灵发布2.0视频生成模型,6月,字节跳动发布了即梦3.0 Pro视频模型,就在昨天,谷歌宣布Veo3正式上线,今 天MiniMax也加入混战队列,开始卷性价比了。 6月18日,MiniMax在海内外官方平台宣布,新视频生成模型海螺AI(海螺02)上线,同时发布了一段大秀杂技的AI视频。官方表示,这段视频是由3位艺术 家耗时1.5天,使用海螺02生成的多个6-10s视频,再拼接剪辑而成。 杂技画面对AI视频生成来说一直是较有难度的内容,此前AI生成画面时往往肢体拼接混乱,无法准确模仿复杂的人类动作。从此次画面效果来看无论是光 影、人类动作、物理模仿都完成得很好。 不过,需要指出的是,有AI创作者对第一财经表示,AI视频生成还涉及一个成功率的问题,因此样片是完美的,但过程中他们进行了多少次"抽卡",外界并 不能知晓。所谓抽卡指的是, AI往往不是一次就能成功生成用户想要的画面,可能会有出错的概率,因此行业会选择多次生成直到得到自己想要的画面。 不过,即便如此,上述AI创作者认为,这次海螺AI的更新是不错的,行业整体水平都在提升。 在竞技场Art ...
MiniMax秀了波AI视频杂技:越看越惊艳,指令遵循太强了
量子位· 2025-06-18 00:54
白交 发自 凹非寺 量子位 | 公众号 QbitAI 这样复杂精致的视频效果,都是AI生成的?都是最新国产AI大模型的新能力?? 没错,都来自MiniMax刚刚发布海螺2.0版本,能处理极端物理情况,原生支持1080P。 它可以这样—— 提示词:The character in the frame juggles throwing knives with fast and fluid motion. 画面中的人物以快速、流畅的动作玩弄投掷刀具的游戏 即便是这种快速变化的场景也可以hold。 官方介绍说,这次新升级的大模型,在指令遵循、生成质量都达到了一流水平,其成本效率破纪录。 Hailuo02 在官方释出的最新案例中,能够看到此次升级的一些细节。 还可以在空中旋转跳跃不停歇—— 提示词:Acrobatic performance:a performer swings rapidly on an aerial executing high-difficulty moves as the camera follows. 杂技表演:表演者在空中快速摆动,做出高难度动作,镜头跟随。 比如在光影处理上。 即便是比较超 ...
爱诗科技联合举办 CVPR 2025第二届高效端侧生成技术研讨会(EDGE)
Cai Fu Zai Xian· 2025-06-17 08:15
爱诗科技旗下AI视频生成平台PixVerse作为本次研讨会联合举办方,很荣幸与全球顶尖的学者专家们一 起学术共创,行业赋能! 近日,CVPR 2025 第二届高效端侧生成技术研讨会(EDGE)于美国田纳西州纳什维尔市圆满落幕,研讨 会期间《AdaVid:Adaptive Video-Language Pretraining(面向多场景迁移的自适应视频-语言预训练框架)》 和《Scaling On-Device GPU Inference for Large Generative Models(生成式大模型端侧GPU推理的规模化 加速)》两篇论文拔得头筹。 ...
Midjourney入局视频生成,图像模型V7不断更新,视觉卷王实锤了
量子位· 2025-06-16 10:30
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 可以看到跑步动作和人物、空间转换非常丝滑。 下面这个挖蛋糕的场景不仅逼真,勺子上还有倒影,非常细节了。 图像生成界的"大魔王" Midjourney 也来卷视频生成了?! 一石激起千层浪,消息一出,Reddit点赞量直达2.5k。 上面展示的就是一个视频效果。 还引发了网友们激烈讨论。 有人说"这是第一次以为是人工拍摄的视频"、"几乎和现实无法区分"。 不仅视频模型表现良好,Midjourney的 图像模型V7 也在不断更新中。 不仅效果惊人,价格还由你来定 再来看看更多的效果演示。 多人物动作和视角切换也非常丝滑。 小猫的动作和人手的动作都很有物理真实感。 小狗滑滑板来了~ 汽车漂移也不在话下。 没有音频功能 。 是的,网友们也发现了这一点。 小猫美甲确实很精细,但更细节的是手部的纹路,手指上居然还有指纹 (虽然有一部分指纹是缺失的) 。 不过,也正如上面那位网友所说,有些地方还是不太合理的。 比如,这个叠毯子的场景中,虽然考虑到了手部发力扯出的褶皱,给人一定的物理真实感,但是后面像是毯子自己缩回去了…… 总体看下来,Midjourney的这个视频生成模 ...
每一幕皆可控!字节发布多主体视频生成神器,人人皆主角
量子位· 2025-06-13 09:02
仅基于一张参考图像,生成 主 体保持高 度一致 的视频, 多人同台也不串脸 ! 字节发布多主体视频生成神器—— MAGREF (Masked Guidance for Any‑Reference Video Generation) 。 比如,爱因斯坦版风驰电掣**摩托,效果be like: 字节 投稿 量子位 | 公众号 QbitAI 提供一张图灵 的参考图,也能生成动起来的全身视频,人物面貌服饰在每一帧中保持高一致性,不会逐渐跑 偏: 根据多样文 本 提示,MAGREF可实现"一图千面": 重要 的是, 不 仅是单一主体生成 。 无论输入 是谁、 来自哪个时 代、风格是否抽象,它都能精准复刻其身份特征,同时根据文本指令渲染出多变 的动作、环境和光影氛围。 MAGREF在不增加模型复杂度的前提下,通过引入掩码引导与通道拼接机制,实现了对多 样参考图像的统一处 理能力。 无论是 单 人演绎、多人物互动,还是人物与物体、背景共同出现在画面 中 ,MAGREF都能生成身份稳定、结 构一致、语义协调的视频序列。 牛顿纵情挥笔绘制大作: 每一位角色的面貌、发型、神态与参考图一致,表情自然,互动合理。 不论是两人同框还是 ...
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 08:17
Video-Bench 视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。 简单地说,能够让多模态大模型(MLLM)"像人一样评估视频"。 实验结果表明,Video-Bench不仅能精准识别生成视频在物体一致性(0.735相关性)、动作合理性等维度的缺陷,还能稳定评估美学质量等 传统难题,显著优于现有的评估方法。 Video-Bench团队 投稿 量子位 | 公众号 QbitAI 视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望 的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench的研究团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等机构。 Video-Bench:基于MLLM的自动化视频评估框架 Video-Bench团队在面对已有的视频评估方法时,发现了两个问题: 1.简单的评分规则往往无法捕捉视频流畅度、美学表现等复杂维度—— 那么,当评判"视频质量"时,如何将人类出于"直觉"的模糊感受转化为可量化的评估指标? 2.现有基于大语 ...
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 08:16
Video-Bench团队 投稿 量子位 | 公众号 QbitAI 视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望 的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench 视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。 简单地说,能够让多模态大模型(MLLM)"像人一样评估视频"。 实验结果表明,Video-Bench不仅能精准识别生成视频在物体一致性(0.735相关性)、动作合理性等维度的缺陷,还能稳定评估美学质量等 传统难题,显著优于现有的评估方法。 Video-Bench的研究团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等机构。 Video-Bench:基于MLLM的自动化视频评估框架 Video-Bench团队在面对已有的视频评估方法时,发现了两个问题: 1.简单的评分规则往往无法捕捉视频流畅度、美学表现等复杂维度—— 那么,当评判"视频质量"时,如何将人类出于"直觉"的模糊感受转化为可量化的评估指标? 2.现有基于大语 ...
实测豆包1.6,最火玩法all in one!Seedance登顶视频生成榜一,豆包APP全量上线
量子位· 2025-06-12 07:11
海淀区高考模拟卷,豆包1.6文理科成绩全部突破700分,理科成绩更是比去年的豆包提升了154分。 | 海淀模拟全卷 | | | --- | --- | | 豆包大模型1.6: | 豆包-240615: | | 理科: 656+50=706 | 理科: 502+50=552 | | 文科:662+50=712 | 文科:572+50=622 | 视频领域, Seedance 1.0 Pro 亮相即登顶全球竞技场文生视频、图生视频双料第一。 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 不愧是字节,一发大模型,各模态榜单格局全部被重构! 最新豆包大模型1.6系列 ,"小版本"更新但推理、数学、多模态能力全部冲入 全球第一梯队 。 | Artificial Analysis Video Arena Leaderboard | | | | | | Artificial Analysis Video Arena Leaderboard | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | Text to Video | ...
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
量子位· 2025-06-12 01:37
NFD团队 投稿 量子位 | 公众号 QbitAI 在A100上用310M模型,实现 每秒超30帧 自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架—— Next-Frame Diffusion (NFD) 。 通过实现帧内并行采样,帧间自回归的方式,NFD让视频生成在保持较高生成质量的同时,生成效率大幅提升。 或许不久之后的游戏,就是玩家直接跟模型交互打游戏了,无需通过传统的游戏引擎。 比如在《我的世界》中,下面每个视频在NVIDIA A100 GPU上生成 只需约 0.48秒 。 玩家在黑暗的走廊中不断前进: 玩家在攻击小动物后转动视角: 玩家跳跃后放置木块: 玩家跳上草地: 如今,NFD让生成速度又快了几倍。 玩家不停地放置石块: 值得一提的是,前段时间在X上火了的一款基于Minecraft的交互式自回归世界模型—— MineWorld ,也是这个微软研究院的团队做的。 它能够以每秒4-7帧的速度和模型进行交互。 为进一步提高生成效率,研究人员进一步通过以下技术来减少推理时的总采样次数: 引入块状因果注意力机制的Transformer ...