视频生成技术

Search documents
AI穿越直播视频为啥这么火(有事说事)
Ren Min Ri Bao Hai Wai Ban· 2025-06-30 02:06
现在是公元208年。这里最长的成之战 this is 208 adjthe battle of Chengban Slope AI视频生成技术正成为连接古今、沟通中外的崭新纽带,让尘封的历史记忆焕发出新的活力,也让文 化的交流更加生动可及。 如果陈子昂活在今天,或许不需要怆然涕下了——近日,"AI穿越直播"火了。 视频中,AI记者"穿越"至古代场景:或在烽火连天的赤壁战场奔走解说,或"现身"唐朝玄武门之变现 场,或"参与"秦朝长城修筑……这样的作品如雨后春笋般涌现,凭借"第一人称Vlog视角+历史名场 面"的独特叙事,营造出强烈的"在场感",让观众在虚实交融中沉浸式感受历史的鲜活脉搏。 A n xx _ 我现在就在泰国会战的核心现场! I'm right in the heart of the battle of Red Cliffs 技术是把双刃剑,热闹之下也有隐忧。如果说,网上冒出一些让人哭笑不得的内容,比如"秦始皇直播 卖瓷砖""屈原代言粽子",将历史娱乐化,还能让人一眼看破、一笑置之的话,有些AI作品把不同历史 时期的东西凑在一起,却又"一本正经"地讲述,则有可能误导儿童青少年,容易将AI生成的"历史 ...
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 08:17
Video-Bench 视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。 简单地说,能够让多模态大模型(MLLM)"像人一样评估视频"。 实验结果表明,Video-Bench不仅能精准识别生成视频在物体一致性(0.735相关性)、动作合理性等维度的缺陷,还能稳定评估美学质量等 传统难题,显著优于现有的评估方法。 Video-Bench团队 投稿 量子位 | 公众号 QbitAI 视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望 的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench的研究团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等机构。 Video-Bench:基于MLLM的自动化视频评估框架 Video-Bench团队在面对已有的视频评估方法时,发现了两个问题: 1.简单的评分规则往往无法捕捉视频流畅度、美学表现等复杂维度—— 那么,当评判"视频质量"时,如何将人类出于"直觉"的模糊感受转化为可量化的评估指标? 2.现有基于大语 ...
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 08:16
Video-Bench团队 投稿 量子位 | 公众号 QbitAI 视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望 的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench 视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。 简单地说,能够让多模态大模型(MLLM)"像人一样评估视频"。 实验结果表明,Video-Bench不仅能精准识别生成视频在物体一致性(0.735相关性)、动作合理性等维度的缺陷,还能稳定评估美学质量等 传统难题,显著优于现有的评估方法。 Video-Bench的研究团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等机构。 Video-Bench:基于MLLM的自动化视频评估框架 Video-Bench团队在面对已有的视频评估方法时,发现了两个问题: 1.简单的评分规则往往无法捕捉视频流畅度、美学表现等复杂维度—— 那么,当评判"视频质量"时,如何将人类出于"直觉"的模糊感受转化为可量化的评估指标? 2.现有基于大语 ...
豆包发布视频生成模型Seedance1.0 pro
news flash· 2025-06-11 03:38
豆包发布视频生成模型Seedance1.0pro,价格0.015元/千tokens,制作5秒的1080p视频约3.67元/个。同 时,豆包的实时语音模型全量上线。(科创板日报) ...
腾讯混元推出AI数字人技术:一张照片配音频即可生成唱歌视频
Feng Huang Wang· 2025-05-28 09:23
官方表示,HunyuanVideo-Avatar在主体一致性和音画同步准确度方面已达到业内领先水平,超越现有 开源和闭源解决方案。在画面动态性和肢体自然度表现上,与其他主流闭源方案处于同等技术水准。 目前,HunyuanVideo-Avatar的单主体功能已在腾讯混元官方网站开放体验,用户可通过"模型广场-混元 生视频-数字人-语音驱动"路径访问相关功能。系统当前支持不超过14秒的音频文件上传,后续将逐步 开源更多高级功能模块。 腾讯此次开源举措将推动AI视频生成技术的普及应用,为短视频创作、电商营销、广告制作等垂直领 域提供低成本的技术解决方案。 凤凰网科技讯 5月28日,腾讯混元团队联合腾讯音乐天琴实验室正式发布并开源语音数字人模型 HunyuanVideo-Avatar。该技术仅需用户提供一张人物图像和一段音频文件,即可自动生成包含自然表 情、精准唇形同步以及全身动作的动态视频内容。 HunyuanVideo-Avatar基于腾讯混元视频大模型与MuseV技术深度融合开发。该模型具备强大的多模态理 解能力,能够自动识别输入图像中的人物环境信息以及音频所承载的情感内容,进而生成高度匹配的视 频片段。以实际 ...
国产AI技术加速重构行业格局 快手可灵系列大模型市场份额超30%
Zheng Quan Ri Bao· 2025-05-16 16:39
从市场表现来看,可灵AI的用户规模和使用频率均呈现出快速增长趋势。自发布以来,可灵AI全球用 户规模已突破2200万,月活用户量增长25倍,累计生成超过1.68亿个视频及3.44亿张图片,特别是在4月 末发布的可灵2.0大师版,仅在3周后就在Poe平台上拿下了20.9%的份额。 此外,快手可灵的商业化进程同样跑出加速度。快手最新财报显示,今年2月份可灵AI累计营业收入已 超过1亿元;今年前3个月,可灵AI营收超过2024年总和。 一位不愿具名的行业分析师对《证券日报》记者表示,国产视频大模型发展前景广阔。技术上,生成时 长、分辨率等性能持续提升,可灵等模型已展现竞争力。应用上,影视、广告、教育等多领域加速渗 透,大幅降本增效。商业化方面,会员制等模式逐步成熟,头部企业已实现千万级月流水。随着算力成 本下降与多模态融合深化,国产视频大模型有望引领全球内容生产范式变革。 有业内人士对《证券日报》记者表示,快手可灵系列市场份额超30%,彰显其技术实力与商业化落地能 力。依托海量短视频数据优势,可灵在视频时长、分辨率等关键指标上突破,精准匹配行业需求。伴随 着生态体系完善与迭代加速,可灵有望持续领跑市场,重塑AI视频 ...
爱诗科技完成近3亿元A+轮融资,核心AI视频生成产品PixVerse全球用户数超1200万
IPO早知道· 2024-12-18 03:14
持续推动AI视频生成技术普惠。 本文为IPO早知道原创 作者|Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,爱诗科技日前完成A2至A4轮融资,总金额近3亿元人民币。此前,A2轮融资由 蚂蚁集团投资,近期A3、A4轮融资由北京市人工智能产业投资基金、国科投资及光源资本投资,光 源资本继续担任独家财务顾问。融资将主要用于提升技术研发能力、扩展算力资源以及建设人才团 队,加速产品功能迭代与市场覆盖,持续推动AI视频生成技术的普惠。 截至目前,爱诗科技的核心AI视频生成产品PixVerse全球用户数超1200万,月活跃用户数近600 万。 自2024年10月PixVerse V3版本发布后,"毒液变身"等创意特效功能席卷海内外社交媒体, 为亿万用户提供了前所未有的AI视频生成体验。PixVerse不仅在文生视频和图生视频能力上保持全 球领先,还上线了Video to Video(视频生视频)功能,可基于实拍视频或影视片段进行延长生 成,进一步拓宽了AI视频创作的可能性。 2024年12月,PixVerse 移动App在海外上线,可通过官网下载体验。同时,爱诗科技已面向企业 用户开放技术 ...