Workflow
视频生成
icon
Search documents
爱诗科技CEO王长虎:视频是最贴近用户的内容形态,好的模型带来了好的产品
Hua Er Jie Jian Wen· 2025-06-06 13:20
以下是演讲亮点: 2025年6月6日-7日,第7届北京智源大会将以线上+线下联动的形式召开,6日下午推出"大模型产业CEO"主题论坛,邀请业内知名专家学者、大模 型领域领军企业CEO。 爱诗科技CEO王长虎发表了主题演讲——"PixVerse(拍我AI)如何打造一个受人喜爱的产品",他介绍了PixVerse的发展历程,以及影响其发展的 三个关键决策。 以下是演讲原文: 大家好,我是爱诗科技的王长虎。很荣幸这次被邀请来到智源大会的大模型产业论坛上进行分享。一年前,我主要分享的是技术方面的内容。但 过了一年,总得有点进步,是吧?所以今天我想和大家聊聊产品。今天的主题是"PixVerse(拍我AI)如何打造一个受人喜爱的产品"。PixVerse这 个名字有些拗口,因为它是一个海外产品。为了方便大家,我们今天给它起了一个中文名字,叫做"拍我AI"。其实,这次分享并不是一个成功的 经验总结,因为我们依然处于创业阶段,大家都知道,创业就像在刀尖上行走。所以,我今天介绍产品发展历程的同时,也想分享一下我这两年 创业过程中的心路历程。其实,就是给大家讲一个故事。其中,我会重点介绍三个影响我们发展的关键决策。 刚才看到大海兄的 ...
Sora免费首秀遇冷,微软能否借其重振AI视频领域雄风?
Sou Hu Cai Jing· 2025-06-05 13:33
微软终于将Sora模型免费开放给公众,但这一举措似乎来得有些迟。近日,微软Bing宣布在其应用中新增了Bing视频 创作器功能,该功能基于OpenAI的Sora模型,允许用户通过简单的文本提示生成视频。这也是Sora首次面向大众免费 开放使用。 几乎在同一时间,另一家公司Manus也推出了其原生文生视频功能,并嵌入到了自家的Agent工作流中。这两家公司几 乎同时在其产品生态中引入文生视频功能,不禁让人质疑微软这一步棋究竟慢了多少。 Sora模型自诞生之日起便备受瞩目,甚至被誉为"AI视频领域的牛顿时刻"。然而,不断延期的发布时间、高昂的定价 以及复杂的安全风险等问题,让市场对它的期待逐渐降温。如今,尽管微软通过Bing免费上线了视频创作器功能,但 Sora的表现却显得有些差强人意。 在实际测试中,Bing视频创作器在视频长度、画面比例、生成速度以及多模态融合功能等方面都存在明显短板。生成 的视频质量也远不及市场上的其他同类产品。例如,在对比测试中,Bing视频创作器生成的羊驼跳舞视频画面主体辨 识度低,背景AI感强烈,整体质感较为粗糙。 从Sora模型首次曝光到现在,整个事态的发展颇具戏剧性。微软一直对So ...
从“牛顿时刻”到“鸡肋时刻”:微软免费Sora的尴尬首秀
Hu Xiu· 2025-06-05 10:34
一个是默默关注Sora、OpenAI背后的"大东家",另一个则是AI Agent里的"新秀",两方在自家产品生态中上马文生视 频的时间点几乎是一样的。可见,微软这一步棋到底慢了多久。 从Sora代号第一次问世到现在,整体局面的发展路径很像:"微软想要,OpenAI不给,但最后微软如愿以偿得到了 Sora的副产品"。 微软将Sora免费了,但却已经晚了。 前天,微软Bing宣布在其应用程序中推出 Bing 视频创作器(Bing Video Creator),该功能基于OpenAI的Sora模型,允 许用户通过文本提示词生成视频。这也是Sora首次面向用户免费开放。 就在昨天,Manus推出原生文生视频,嵌入进了自家Agent的工作流中。 为什么说它是Sora的副产品?因为微软上线的Bing 视频创作器从产品力和宣传上来讲,很难说得上是个完整的产品。 当微软终于宣布将它免费向用户开放时,这个消息并未掀起预期中的热潮,反而透着一股尴尬的迟到感。网友对这款 产品的"自来水"评价很差,甚至直言:我们已经有了可灵和Veo,为何还用Sora? Sora,这个曾被OpenAI寄予厚望、甚至被誉为"AI视频领域的牛顿时刻"的模 ...
Manus AI能生成视频了,实测发现不少翻车名场面,网友:有种2011年的美
3 6 Ke· 2025-06-05 09:26
当代 AI 视频创作者有三件套:提示词、积分、以及抽卡。 继 Veo 3 刚刚掀起一轮小高潮后,Manus 也能生成视频了,功能挺全,经过实测,在 Agent 加持下, 支持图生视频、文生视频等标配功能。 该功能目前已经向 Basic、Plus 和 Pro 用户开放抢先体验。 先说结论,你要真指望它一句话秒出大片,那还是先降低心理预期。 高情商,不是不能用,只是抽卡的概率有些感人;低情商,用网友的话来说,花里胡哨,视频质量也有种 2011 年的美。 按照过往惯例,Manus 大概率也是套壳某家 AI 视频模型,但鉴于目前还没厂商认领,我们也不好断言,而经过一轮实测,我们也总结出几个特点: 图生视频:效果能打,但也随机抽卡 从体验上看,Manus 的图生视频明显要比文生视频靠谱得多。 我上传了一张威尔史密斯的照片作为参考,让其生成吃面的视频,效果还算可接受,风格统一、角色一致性尚可。 肤色和构图风格维持得比较好,相比于当前的视频主流模型,算得上是正常发挥。 并且,5 秒的视频仅扣了 44 积分,考虑到如果是普通用户,那么开通一个 Basic 账号,积分也足够用了。 抽卡严重,基本默认生成约 5 秒的「默剧」片段 ...
腾讯开源的HunyuanVideo-Avatar上传一张图+一段音频,虚拟角色“活”过来
Sou Hu Cai Jing· 2025-06-04 02:48
今天早上,GitHub上突然冒出一个让AI圈炸锅的项目——腾讯开源的HunyuanVideo-Avatar。 这是一个开源的视频生成工具,上传一张图+一段音频,就能让图中的人物、动物甚至虚拟角色"活"过来,开口说话、唱歌、演相声! 连爱因斯坦和奥黛丽·赫本都能被AI"复活"同台说相声,这类工具其实之前就有,那腾讯这次开源的HunyuanVideo-Avatar有什么魅力呢,一起来看看? 一、你的照片会"演戏" HunyuanVideo-Avatar的核心逻辑就像个"数字人导演",它能从一张静态图中读懂场景,再根据音频的情感让角色动起来。而这一切的秘密武器,藏在三个 模块里: 1、告别AI生成的"网红脸"! 传统模型容易生成"千人一面"的角色,而腾讯用这个模块直接把你的照片"刻"进模型里。能精准保留原图细节,连衣服褶皱和背景光影都保持一致。 3、多人飙戏不串场! 看Demo,视频中两个角色的唇形、表情、手势完全独立,连互动时的眼神交流都自然得像真人演员。 二、创意可以成真 HunyuanVideo-Avatar可以在这些场景应用: 电商直播:上传商品图+促销文案,AI主播24小时在线带货,还能根据"限时秒杀"的 ...
用Veo 3+Suno做了个AI Rapper,吊打音乐节上的流量明星
机器之心· 2025-05-29 11:38
| 机器之心报道 | | --- | 编辑:杨文 太疯狂了!AI生成的嘻哈歌手唱Rap以假乱真,网友直呼「看不出破绽」。 来来来,眼尖的朋友请告诉我,下面这个嘻哈歌手唱 rap 的视频到底是真实的,还是 AI 生成的? 我可以 100% 肯定地说,此为 AI 的手笔。你猜对了吗? 三天前,X 博主 @blizaine 使用 Google Flow Veo3 和 Suno 4.5 制作了这一视频。画面和开场声音是 Veo3 生成的,歌曲和歌词则用 了 Suno 4.5。 由于效果过于逼真,网友直呼「太疯狂」,甚至还让摇滚老炮回想起了当年的舞台时光。 看样子,Veo 3 刚揭开流量明星的遮羞布,这下子又要让歌手瑟瑟发抖了。 循着这个方向在 X 上逛了一圈,发现不少网友热衷于用 Veo 3 生成演唱会视频,而且一个比一个自然。 比如这个另类摇滚迷幻乐队在一家小酒吧的演出片段。主唱站在麦克风前,边弹吉他边演唱成名曲中的副歌部分,情绪饱满但不激烈;贝斯手、吉他手和鼓手沉 醉其中,身体随节奏摇摆着,几乎找不出什么 bug。 Prompt: Mid 90s footage of an alternative rock sh ...
腾讯混元推出AI数字人技术:一张照片配音频即可生成唱歌视频
Feng Huang Wang· 2025-05-28 09:23
官方表示,HunyuanVideo-Avatar在主体一致性和音画同步准确度方面已达到业内领先水平,超越现有 开源和闭源解决方案。在画面动态性和肢体自然度表现上,与其他主流闭源方案处于同等技术水准。 目前,HunyuanVideo-Avatar的单主体功能已在腾讯混元官方网站开放体验,用户可通过"模型广场-混元 生视频-数字人-语音驱动"路径访问相关功能。系统当前支持不超过14秒的音频文件上传,后续将逐步 开源更多高级功能模块。 腾讯此次开源举措将推动AI视频生成技术的普及应用,为短视频创作、电商营销、广告制作等垂直领 域提供低成本的技术解决方案。 凤凰网科技讯 5月28日,腾讯混元团队联合腾讯音乐天琴实验室正式发布并开源语音数字人模型 HunyuanVideo-Avatar。该技术仅需用户提供一张人物图像和一段音频文件,即可自动生成包含自然表 情、精准唇形同步以及全身动作的动态视频内容。 HunyuanVideo-Avatar基于腾讯混元视频大模型与MuseV技术深度融合开发。该模型具备强大的多模态理 解能力,能够自动识别输入图像中的人物环境信息以及音频所承载的情感内容,进而生成高度匹配的视 频片段。以实际 ...
实测惊艳全球的Veo3!音画同步无敌,贵是有原因的
机器之心· 2025-05-26 09:40
机器之心报道 编辑: 杨文、 +0 好莱坞要完蛋了。 杨子为了演出西门庆的放荡,不是对着于佩尔夸赞「龙睛凤眼,唇红齿白」,就是追着章子怡「死锤烂打」: 刘梓晨版的九妖之王相柳,来一个导师他就「死」一次,演个倒地都一股子喜感: 「你大爷永远是你大爷」这句话的含金量还在上升。 上周谷歌举办了一场开发者大会,祭出一堆好东西,其中最让人震撼的就是 Veo3。 该模型具备强大的文本和图像转视频能力,并首次实现了视频与音频的同步生成。 换句话说,视频画面和环境音效、背景音乐、人物对白终于可以一锅出了,而且口型还能对得上。 不少网友心甘情愿为其氪金,并在社交平台放出了诸多 Veo3 生成的视频,我看完后的第一反应就是刘晓艳「附体」: 没演技的流量明星们,回家吧。 咱不说别的,当初看《演员请就位》第一期的时候,就被这群选手们的烂演技炸得脑瓜子嗡嗡的。 再对比下 Veo3 生成的「演技」。一位美国士兵在战火纷飞的战场上踉跄行走,表情木然,双眼空洞,突然他停下脚步,在泥泞中跪下,低声呢喃:「为什么我还 活着?」 瞅瞅这细微的小表情,这流畅的肢体动作,这充满绝望的台词,你觉得流量明星们赶得上吗? Prompt : Handheld ...
Veo3逼真脱口秀火爆全网,视频生成的GPT时刻到了吗?
Di Yi Cai Jing· 2025-05-26 03:02
"瑕疵非常多,也很贵。" "如果AI生成的角色拒绝相信他们是AI生成的,会怎么样?" 近日,海外博主用谷歌最新视频模型Veo 3生成的一些人物视频火了。在这些视频中,有一群人集体高呼抗议"We're not prompts(我们不是提示词)",还有 一位男士举着手机自拍,背景是美妙的高山峡谷,他指着身后,"你想说我背后的完美创造物,仅仅是0和1的结果,一串二进制代码,再无其他?这不合 理。" 当然台词和剧本是人创作的,但由AI生成的这些人物和场景都极具真实感,无论是光线在人脸上投下的阴影与高光,还是人物的长相、口型,在阳光下眯 起眼睛的神态都极为自然。配合Veo 3新的原生音频生成功能,人们再一次惊呼"真实不存在了"。 事实是否真的如此,视频生成的GPT时刻终于来了吗?第一财经记者采访的Veo 3的使用者们并不这么认为。AI Talk主理人、AIGC创作者汗青提到,Veo 3 确实是很好的技术,但并没有网传那么夸张,例如视频生成质量有提升但不惊艳,价格不低,现阶段对实际生产帮助还不大。 AIGC创作领域的KOL@尾鳍Vicky对第一财经表示,Veo 3的文生效果是很好,但图生效果与国内第一梯队产品差不多,而在 ...
诺瓦星云(301589) - 2025年5月20日投资者关系活动记录表
2025-05-20 12:05
证券代码:301589 证券简称:诺瓦星云 西安诺瓦星云科技股份有限公司 投资者关系活动记录表 编号:2025-001 | | □特定对象调研 □分析师会议 | | --- | --- | | 投资者关系 | ☑业绩说明会 □媒体采访 | | 活动类别 | □新闻发布会 □路演活动 | | | □现场参观 | | | □其他 (请文字说明其他活动内容) | | 参与单位名称 | 投资者网上提问 | | 及人员姓名 | | | 时间 | 年 月 日(周二)下午 2025 5 20 15:00~17:00 | | 地点 | 公司通过全景网"投资者关系互动平台"(https://ir.p5w.net)采用网 | | | 络远程的方式召开业绩说明会 | | 上市公司 | 董事、副总经理、董事会秘书:翁京 | | 接待人员姓名 | 财务总监:张争 | | | 证券事务代表:刘朋 投资者提出的问题及公司回复情况 | | | 公司就投资者在本次说明会中提出的问题进行了回复: | | | 1、公司产品是否可以应用到新能源汽车内的显示屏上? | | 投资者关系活 | 尊敬的投资者,您好!公司聚焦于视频显控核心算法研究及应 | ...