视频生成

Search documents
国产AI技术加速重构行业格局 快手可灵系列大模型市场份额超30%
Zheng Quan Ri Bao· 2025-05-16 16:39
从市场表现来看,可灵AI的用户规模和使用频率均呈现出快速增长趋势。自发布以来,可灵AI全球用 户规模已突破2200万,月活用户量增长25倍,累计生成超过1.68亿个视频及3.44亿张图片,特别是在4月 末发布的可灵2.0大师版,仅在3周后就在Poe平台上拿下了20.9%的份额。 此外,快手可灵的商业化进程同样跑出加速度。快手最新财报显示,今年2月份可灵AI累计营业收入已 超过1亿元;今年前3个月,可灵AI营收超过2024年总和。 一位不愿具名的行业分析师对《证券日报》记者表示,国产视频大模型发展前景广阔。技术上,生成时 长、分辨率等性能持续提升,可灵等模型已展现竞争力。应用上,影视、广告、教育等多领域加速渗 透,大幅降本增效。商业化方面,会员制等模式逐步成熟,头部企业已实现千万级月流水。随着算力成 本下降与多模态融合深化,国产视频大模型有望引领全球内容生产范式变革。 有业内人士对《证券日报》记者表示,快手可灵系列市场份额超30%,彰显其技术实力与商业化落地能 力。依托海量短视频数据优势,可灵在视频时长、分辨率等关键指标上突破,精准匹配行业需求。伴随 着生态体系完善与迭代加速,可灵有望持续领跑市场,重塑AI视频 ...
不会剪辑?一句话生成完整可编辑的视频:Medeo 带你看视频生成的未来
歸藏的AI工具箱· 2025-05-16 08:11
过去一年不断有人问我,"藏师傅有没有通过一个提示词生成整段视频的产品啊,我愿意付费"或者是"藏师 傅,我这里有口播稿和素材有没有能帮我剪辑的 AI 产品"。 我跟他们说的都是应该快了,马上就会有的,这次终于有了! Medeo( https://ai.medeo.app/create ):创作者的专属AI视频工作室。 无论你有多少素材,哪怕只有一句话,他都能帮你生成一个带口播、音乐的完整视频。 这篇内容我会用几个案例来展示这个产品有多强大,另外会介绍一些使用技巧。 先来看一些案例 最基础的能力是你提供素材或者口播稿,他会帮你完成剪辑并生成视频。 非常适合资讯类或者对内容控制要求高的需求。 而且你可以要求他严格按照你提供的口播稿生成视频,也可以提供信息之后让他自己发挥。 比如下面这个左边就是我提供了 Dia CEO 的发言之后让他自己发挥的,右边就是让他精准根据口播稿生成的 视频。 我还提供了一些 Dia 的截图和视频,如果不够的话他还会自己寻找素材匹配进去,整个成本非常低。 当别的信息搬运者还在复制文字的时候,你直接一个链接丢进去,已经出视频了。 下面这个科普视频,我整个提示词就只有这一段话,没有任何干预,所有 ...
阿里开源全能视频模型!生成编辑都精通,1.3B版本消费级显卡可跑
量子位· 2025-05-15 06:26
一水 发自 凹非寺 量子位 | 公众号 QbitAI 业界功能最全、消费级显卡可跑、而且还是开源的?! 不卖关子了,这就是阿里最新开源的通义万相 Wan2.1-VACE ,号称当前业界功能最全的 视频生成与编辑模型 。 有多全呢?来看官方介绍海报: 按照万相产品负责人的说法,"所有你能想到的关于视频生成的玩法,几乎都在这里了"。 而且与以往不同,以上功能主打"All in one",都能在一个模型里体验。 目前Wan2.1-VACE一共有两个版本: 模型已在GitHub、Hugging Face和魔搭社区上线,动手能力强的小伙伴现在可自行本地化部署,至于其他想在产品端直接体验的朋友,可能 还要等一两天。 初阶玩法 :基础的文生视频、图生视频(含首尾帧)、视频生视频等; 中阶玩法 :加入编辑功能,局部抹除或替换、视频重绘、时长或背景延展等; 高阶玩法 :将各种能力花式组合。 下面我们依次挑其中的一些亮点来看。 OK,话不多说,我们直接看新模型究竟有哪些玩法。 视频生成领域的"全能选手" 生成的视频如下,不仅还原了文字所描述的氛围感,而且娃娃和小蛇的动作姿态都比较自然,整体构图和谐。 经过一番梳理,Wan2.1- ...
SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!
机器之心· 2025-05-11 03:20
Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而,我们常见的电影片段通常是由导演在一 个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如,在拍摄赛车追逐的场景时,镜头通常跟随赛车运动,并通过扣人心弦的超车时 刻来展示赛事的白热化。而如今的视频生成模型无法实现 3D 场景中目标、相机联合控制的文本到视频创作,限制了 AI 影视制作的能力。 近期,可灵研究团队在「3D 感知可控视频生成」领域做出了首次尝试,推出了 电影级文本到视频生成框架 CineMaster ,允许用户在提供全局文本描述的 基础上,通过提出的交互式工作流辅助用户像专业导演一样布置场景,设定目标与相机的运动,指导模型生成用户想要的视频内容。 目前该论文已录用于 SIGGRAPH 2025。 论文地址:https://arxiv.org/abs/2502.08639 项目主页:https://cinemaster-dev.github.io/ CineMaster 支持 3D 感知的目标、相机运动控制 a) 目标相机联合控制 论文标题:CineMaster: A 3D-Awar ...
腾讯混元推出全新多模态视频生成工具 现已开源并上线官网
Sou Hu Cai Jing· 2025-05-10 14:48
【太平洋科技快讯】5月9日,腾讯混元正式推出并开源一款全新的多模态定制化视频生成工具—— Hunyuan Custom,该工具基于混元视频生成大模型(Hunyuan Video)打造。 Hunyuan Custom 的核心优势在于其强大的多模态融合能力。它能够同时处理文本、图像、音频、视频 等多种输入形式,并将其转化为连贯、自然的视频内容。相比传统视频生成模型,Hunyuan Custom 在 生成质量和控制力方面都有着显著提升。 Hunyuan Custom 具备强大的扩展能力。在音频驱动模式下,用户可以上传人物图像并配上音频语音, 模型便可生成人物在任意场景中说话、唱歌或进行其他音视频同步表演的效果,广泛适用于数字人直 播、虚拟客服、教育演示等场景。在视频驱动模式下,Hunyuan Custom 支持将图片中的人物或物体自 然地替换或插入到任意视频片段中,进行创意植入或场景扩展,轻松实现视频重构与内容增强。 此外,Hunyuan Custom 提供了多种视频生成模式,包括单主体视频生成、多主体视频生成、单主体视 频配音以及视频局部编辑等。其中,单主体生成能力已经开源并在混元官网上线,用户可以在"模型广 场 ...
图像提供身份,文本定义一切!腾讯开源多模态视频定制工具HunyuanCustom
AI科技大本营· 2025-05-09 09:35
整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 在多模态视频生成技术逐渐成熟的今天,定制化能力成为衡量系统实用性的重要标准。 5 月 8 日,腾讯混元团队正式推出并开源全新的多模态定制化视频生成框架 HunyuanCustom。该工具基于混元视频生成大模型(HunyuanVideo) 打造,支持图像、文本、音频和视频等多种输入模态,提供高度可控且高质量的视频生成能力。 此外,为实现可控与一致性的统一,HunyuanCustom 在系统架构上设计了多个关键模块: 上述模块使 HunyuanCustom 可在训练与推理阶段均实现图像、语音、视频等模态的解耦控制,为多模态生成提供了灵活接口。 多模态输入 + 主体一致性 解决定制视频「变脸难题」 传统图生视频或文生视频模型虽可合成视觉内容,但通常难以在更换动作、背景、服饰等条件下,保持人物身份不变——比如人物"变脸"、物体"漂 移"等问题较为常见。HunyuanCustom 的核心目标正是解决这一挑战。 HunyuanCustom 引入了基于 LLaVA 的图文融合模块,结合时间级联的图像 ID 增强机制,使视频在全程保持"主体一致"。在此基础 ...
鹅厂开源视频生成大杀器!参考图主体精准复刻,还能编辑现有视频
量子位· 2025-05-09 07:03
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 人物部分,提示词如下: A woman takes a selfie in a busy city. A woman holds a smartphone in one hand and makes a peace sign with the other. The background is a bustling street scene with various signs and pedestrians. 刚刚,鹅厂开源"自定义"视频生成模型 HunyuanCustom 。 "自定义"主打的就是主体一致性,用一张图片就可以确定视频主角, 其一致性评分达到了开源模型SOTA ,且可和闭源媲美。 这样在构思提示词时,就可以不必纠结主体特征描述了。 HunyuanCustom一共支持单主体参考、多主体参考、局部编辑、角色配音四大功能。 其中 单主体参考已上线并开源,其余也将在本月内开源 。 此外混元的技术人员还在直播中透露,团队正在和开源社区合作, 将适配AI创作者常用的ComfyUI 。 期待所有功能完整上线的同时,不妨先来看看demo效果! 主体一致性 ...
腾讯混元发布并开源视频生成工具HunyuanCustom,支持主体一致性生成
news flash· 2025-05-09 04:22
5月9日,腾讯混元团队发布并开源全新的多模态定制化视频生成工具HunyuanCustom。该模型基于混元 视频生成大模型(HunyuanVideo)打造,在主体一致性效果超过现有的开源方案,并可媲美顶尖闭源模 型。HunyuanCustom融合了文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制 力和生成质量的智能视频创作工具。(36氪) ...
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
机器之心· 2025-05-06 04:11
机器之心发布 机器之心编辑部 随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域, 经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获 第一。 视频细粒度文本描述 视频细粒度文本描述模型(video detailed caption)为视频生成模型提供标签,是视频生成的基础。复旦大学等机构提出了 Cockatiel 方法 [3],该方法在权威的 VDC(Video Detailed Captioning 视频细粒度文本描述评测集)榜单上获得第一名,超过了包括通义千问 2-VL、VILA1.5、LLaVA-OneVision,Gemini-1.5 等在内的 多个主流视频理解多模态大模型。 论文标题:Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption ...
昆仑万维:一季度营收大幅增长46% AI算力芯片取得突破性进展
Zheng Quan Shi Bao Wang· 2025-04-29 02:00
(原标题:昆仑万维(300418):一季度营收大幅增长46%AI算力芯片取得突破性进展) 4月29日,昆仑万维(300418.SZ)披露2025年一季度业绩报告。报告期内,公司实现营业收入17.6亿元, 同比增长46%,全力推动AI算力芯片、大模型及应用的研发迭代工作,研发费用4.3亿元,同比增长 23%。 截至报告期末,公司AI音乐年化流水收入ARR达到约1200万美金(月流水收入约100万美金);短剧平台 Dramawave年化流水收入ARR达到约1.2亿美金(月流水收入约1000万美金),为收入增长注入强劲动力。 公司全球化战略成效显著,实现海外业务收入16.7亿元,同比增长56%,海外业务收入占比提升至 94%,国际化布局进一步深化。 公司在多模态推理、视频生成、音频生成等关键方向,推出多项颠覆性技术与开源成果。公司发布的 Skywork R1V多模态推理模型达到开源SOTA(State of The Art,当前最佳水平);视频生成领域, SkyReels-V1模型与支持精准表情动作控制的SkyReels-A1算法位居全球领先地位,后者更实现技术突破 性SOTA;AI音乐领域,Mureka V6与全 ...