Workflow
视频生成模型
icon
Search documents
一个人用AI,也能拍出获奖电影?|看不见的新大陆
Sou Hu Cai Jing· 2026-01-03 16:01
内容来源:2025年12月28日,笔记侠在海南自贸港陵水举办的《看不见的新大陆:第五代企业家逆风进化——柯洲和他的创业者朋友年度演 讲》。 分享嘉宾:柯洲,笔记侠创始人,第五代企业家倡导者 责编| 柒 排版| 日月 第 9371 篇深度好文:4641字 | 7 分钟阅读 《看不见的新大陆》系列 人工智能行业:爱诗科技 笔记君说: 240万人观看12月28日年度演讲直播之余,我们从1月1日通过笔记侠公众号持续更新《看不见的新大陆》第五代企业家案例,欢迎关注。和其他案例 在未来学家凯文·凯利和前经济学人总编吴晨合著的《未来10000天的可能》提到,AI和蒸汽机、电力、计算机一样,通用目的技术具备三个特征: 我想说的第3个行业,就是和人工智能紧密相关的AI 大模型产业,看到 "新大陆" 的是王长虎和他的爱诗科技。 20年视频AI领域的技术老兵,2009年加入微软亚洲研究院,2017年加入字节跳动人工智能实验室,主导抖音、TikTok等产品的视觉技术架构建设。 2021年担任字节跳动视觉技术负责人,完成视觉大模型从0到1建设,2023年创业打造了一家全球图生视频榜单第一的 AI 视频大模型企业。 在很多人眼里,AI大 ...
全球功能最全的视频生成模型来了
量子位· 2025-12-17 10:00
坏了,阿里这波是冲着Sora 2去的! 刚刚,阿里发布了新一代 通义万相2.6系列模型 ,一次性覆盖 文生视频 、 图生视频 、 参考生视频 ,以及 图像生成 和 文生图 ,是目前全 球功能最全的视频生成模型。 在视频创作上,万相2.6不仅推出了Sora2目前还没有的 多 音频驱动生视频 能力,还同步引入了音画同步、多镜头叙事等能力。 梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 像下面这个超火的一刀切ASMR,就是通过文本+音频直接驱动出来的: 再看这个由 文本+图像+音频 驱动的小猫沉浸式吃播,咀嚼声和嘴部动作基本能卡在点上,吃得那叫一个香: 文生图这条线也同步补强了,万相2.6在艺术风格控制、真实感人像、中英文长文本生图以及历史文化IP语义理解等方面的创作能力也都有明 显提升,效果be like: 本着啥都测测的原则,我也专门用不同Prompt和参考素材实测了一轮,总的来说: 万相2.6在音视频参考、声画同步、风格理解方面表现确实不错,但在个别场景下仍会出现画面逻辑偏差的小问题,不过对日常短视频和二创 来讲,已经是可用且好用的水平了。 模型到底表现如何,咱们边唠边测~ 视频生成能力一手实测 实测 ...
阿里,最新发布!
证券时报· 2025-12-16 09:56
人人都能当电影主角了。 12月16日,阿里发布新一代万相2.6系列模型,该系列模型面向专业影视制作和图像创作场景进行了全面升 级,全新的万相2.6是国内首个支持角色扮演功能的视频模型。该模型同时支持音画同步、多镜头生成及声音 驱动等功能,是全球功能最全的视频生成模型。据了解,万相2.6已同步上线阿里云百炼、万相官网。 点击关键字可查看 今年9月,阿里率先在国内发布音画同步的视频生成模型万相2.5,极大提升视频创作的效率,在权威大模型评 测集LMArena上,万相图生视频位居国内第一。此次发布的万相2.6进一步提升了画质、音效、指令遵循等能 力,单次视频时长实现国内最高的15s,万相2.6还新增了角色扮演和分镜控制功能,不仅能一键完成单人、多 人、人与物合拍的视频,还能自动实现多镜头切换等专业任务,满足专业影视级场景需求。 值得一提的是,万相2.6的角色扮演功能让普通用户也能在影视级画面里表现精湛的演技。例如,用户上传一 段个人视频,并输入一段科幻悬疑风格的提示词,万相2.6能快速完成分镜设计、角色演绎、画面配音等环节 工作,生成一段镜头叙事完整、电影级运镜的短片,仅需几分钟就能帮用户圆电影主角梦。 责编:李丹 ...
阿里发布通义万相2.6系列模型 上线国内首个角色扮演功能
Zheng Quan Ri Bao· 2025-12-16 07:09
本报讯 (记者梁傲男)12月16日,阿里发布新一代万相2.6系列模型,该系列模型面向专业影视制作和 图像创作场景进行了全面升级,全新的万相2.6是国内首个支持角色扮演功能的视频模型。该模型同时 支持音画同步、多镜头生成及声音驱动等功能,是全球功能最全的视频生成模型。据记者了解,万相 2.6已同步上线阿里云百炼、万相官网。 万相2.6的角色扮演功能让普通用户也能在影视级画面里表现精湛的演技。例如,用户上传一段个人视 频,并输入一段科幻悬疑风格的提示词,万相2.6能快速完成分镜设计、角色演绎、画面配音等环节工 作,生成一段镜头叙事完整、电影级运镜的短片,仅需几分钟就能帮用户圆电影主角梦。 即日起,所有人可直接在万相官网体验万相2.6,企业用户还能通过阿里云百炼调用模型API,据悉,千 问APP也将于近期上线该模型,并提供更丰富的玩法。 目前,万相模型家族已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮 演及通用视频编辑等10多种视觉创作能力,已广泛应用于AI漫剧、广告设计和短视频创作等领域。 (文章来源:证券日报) 今年9月,阿里率先在国内发布音画同步的视频生成模型万相2.5,极大提升视频 ...
阿里发布万相2.6系列模型,上线国内首个角色扮演功能
Ge Long Hui· 2025-12-16 04:50
格隆汇12月16日|阿里发布新一代万相2.6系列模型,该系列模型面向专业影视制作和图像创作场景进 行了全面升级,全新的万相2.6是国内首个支持角色扮演功能的视频模型。该模型同时支持音画同步、 多镜头生成及声音驱动等功能,是全球功能最全的视频生成模型。据了解,万相2.6已同步上线阿里云 百炼、万相官网。 ...
阿里发布电影级视频模型万相2.6
Xin Lang Cai Jing· 2025-12-16 04:34
新浪科技讯 12月16日午间消息,阿里发布新一代万相2.6系列模型,该系列模型面向专业影视制作和图 像创作场景进行了全面升级,全新的万相2.6是国内首个支持角色扮演功能的视频模型。该模型同时支 持音画同步、多镜头生成及声音驱动等功能。据了解,万相2.6已同步上线阿里云百炼、万相官网。 新浪科技讯 12月16日午间消息,阿里发布新一代万相2.6系列模型,该系列模型面向专业影视制作和图 像创作场景进行了全面升级,全新的万相2.6是国内首个支持角色扮演功能的视频模型。该模型同时支 持音画同步、多镜头生成及声音驱动等功能。据了解,万相2.6已同步上线阿里云百炼、万相官网。 今年9月,阿里率先在国内发布音画同步的视频生成模型万相2.5,极大提升视频创作的效率,在权威大 模型评测集LMArena上,万相图生视频位居国内第一。此次发布的万相2.6进一步提升了画质、音效、 指令遵循等能力,单次视频时长实现国内最高的15s,万相2.6还新增了角色扮演和分镜控制功能,不仅 能一键完成单人、多人、人与物合拍的视频,还能自动实现多镜头切换等专业任务,满足专业影视级场 景需求。 万相2.6的角色扮演功能让普通用户也能在影视级画面里表现 ...
首帧的真正秘密被揭开了:视频生成模型竟然把它当成「记忆体」
机器之心· 2025-12-05 04:08
在 Text-to-Video / Image-to-Video 技术突飞猛进的今天,我们已经习惯了这样一个常识: 视频生成的第一帧(First Frame)只是时间轴的起点,是后续动画的起始画面 。 但你能想象吗? 最新研究发现: 第一帧的真正角色完全不是「 起点」。它其实是视频模型的「 概念记忆体 」(conceptual memory buffer), 所有后续画面引用的视觉实体,都被 它默默储存在这一帧里 。 今天就带大家快速了解这一突破意味着什么。 本研究的出发点,源于该团队对视频生成模型中一个广泛存在但尚未被系统研究的现象的深入思考。 第一帧≠起点, 第一帧 = 大型内容缓存区(Memory Buffer) 论文的核心洞察非常大胆: 视频生成模型会自动把首帧中的角色、物体、纹理、布局等视觉实体,全部「 记住」,并在后续帧中不断复用 。 换句话说,不论你给多少参考物体,模型都会在第一帧悄悄把它们打包成一个「 概念蓝图(blueprint) 」。 这项工作来自 UMD、USC、MIT 的研究团队。 在论文的 Figure 2 中,研究团队用 Veo3、Sora2、Wan2.2 等视频模型测试发现: 这 ...
视频模型原生支持动作一致,只是你不会用,揭开「首帧」的秘密
3 6 Ke· 2025-11-28 02:47
Core Insights - The FFGo method revolutionizes the understanding of the first frame in video generation models, identifying it as a "conceptual memory buffer" rather than just a starting point [1][26] - This research highlights that the first frame retains visual elements for subsequent frames, enabling high-quality video customization with minimal data [1][6] Methodology - FFGo does not require structural changes to existing models and can operate effectively with only 20-50 examples, contrasting with traditional methods that need thousands of samples [6][24] - The method leverages Few-shot LoRA to activate the model's memory mechanism, allowing it to recall and integrate multiple reference objects seamlessly [16][22] Experimental Findings - Tests with various video models (Veo3, Sora2, Wan2.2) demonstrate that FFGo significantly outperforms existing methods in multi-object scenarios, maintaining object identity and scene consistency [4][17] - The research indicates that the true mixing of content begins after the fifth frame, suggesting that the first four frames can be discarded [16] Applications - FFGo has broad applications across multiple fields, including robot manipulation, driving simulation, aerial and underwater simulations, product showcases, and film production [12][24] - Users can provide a single first frame with multiple objects and a text prompt, allowing FFGo to generate coherent interactive videos with high fidelity [9][24] Conclusion - The study emphasizes that the potential of video generation models has been underutilized, and FFGo provides a framework for effectively harnessing this potential without extensive retraining [23][24] - By treating the first frame as a conceptual memory, FFGo opens new avenues for video generation, making it a significant breakthrough in the industry [24][26]
具身智能机器人:2025商业元年底色兑现,2026量产元年基色明晰
Ge Long Hui· 2025-11-28 02:07
Core Insights - The commercialization of embodied intelligence is expected to reach a critical milestone in 2025, with significant orders already secured by leading manufacturers, although challenges remain in scaling applications across various industries [1][2] Group 1: Industry Progress and Developments - Several leading manufacturers have secured orders exceeding 1 billion yuan, with applications primarily in research, education, cultural entertainment, and data collection sectors. As of November 2025, companies like UBTECH and Zhiyuan Robotics have received over 800 million yuan and 520 million yuan in orders, respectively [1] - The supply chain is becoming clearer as manufacturers approach mass production, with Chinese suppliers actively establishing production capabilities in overseas hubs like Thailand to support Tesla's 2026 production plans [2] - Chinese tech giants are diversifying their investments in the embodied intelligence sector, with companies like Huawei focusing on foundational infrastructure such as chips and computing power, while others like Meituan and JD.com are integrating Physical AI into their existing business models [2] Group 2: Future Directions and Market Outlook - The industry is expected to continue its long-term progress despite short-term fluctuations, with Tesla planning to release the Optimus V3 in Q1 2026, aiming for a target of 1 million units sold [3] - The Hong Kong stock market is becoming a hub for new players in the embodied intelligence sector, with companies like UBTECH and Yuejiang successfully listing, which is anticipated to stimulate further capital expansion [3] - The fundamental breakthroughs in embodied intelligence models will depend on the scale effects of data and computing power, with a focus on enhancing model performance through larger datasets [4]
全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密
量子位· 2025-11-26 09:33
Core Insights - Tencent's HunyuanVideo 1.5 has been officially released and open-sourced, featuring a lightweight video generation model based on the Diffusion Transformer (DiT) architecture with 8.3 billion parameters, capable of generating 5-10 seconds of high-definition video [1][2]. Model Capabilities - The model supports video generation from text and images, showcasing high consistency between images and videos, and can accurately follow diverse instructions for various scenes, including camera movements and character emotions [5][7]. - It can natively generate 480p and 720p HD videos, with the option to upscale to 1080p cinematic quality using a super-resolution model, making it accessible for developers and creators to use on consumer-grade graphics cards with 14GB of memory [6]. Technical Innovations - HunyuanVideo 1.5 achieves a balance between generation quality, performance, and model size through multi-layered technical innovations, utilizing a two-stage framework [11]. - The first stage employs an 8.3B parameter DiT model for multi-task learning, while the second stage enhances visual quality through a video super-resolution model [12]. - The model features a lightweight high-performance architecture that achieves significant compression and efficiency, allowing for leading generation results with minimal parameters [12]. - An innovative sparse attention mechanism, SSTA (Selective and Sliding Tile Attention), reduces computational costs for long video sequences, improving generation efficiency by 1.87 times compared to FlashAttention3 [15][16]. Training and Optimization - The model incorporates enhanced multi-modal understanding with a large model as a text encoder, improving the accuracy of video text elements [20]. - A full-link training optimization strategy is employed, covering the entire process from pre-training to post-training, which enhances motion coherence and aesthetic quality [20]. - Reinforcement learning strategies are tailored for both image-to-video (I2V) and text-to-video (T2V) tasks to correct artifacts and improve motion quality [23][24]. Use Cases - Examples of generated videos include cinematic scenes such as a bustling Tokyo intersection and a cyberpunk-themed street corner, showcasing the model's ability to create visually appealing and contextually rich content [29][30].