机器之心
Search documents
港大开源ViMax火了,实现AI自编自导自演
机器之心· 2025-12-12 10:06
想象一下,只需要一句话描述,AI 就能为你拍出一部完整的短剧?以后可能真的人人都能当导演了。不用学复杂的拍摄技巧,不用买昂贵设备,甚至不用找演 员。有个好想法,AI 就能帮你实现。 为了让这个想法变成现实,香港大学黄超教授团队开源了 ViMax 框架,并在 GitHub 获得 1.4k + 星标,专注于 Agentic Video Generation 的前沿探索。通过多智能体 协作,ViMax 实现了真正的 "自编自导自演"—— 从创意构思到成片输出的完整自动化,把传统影视制作的每个环节都搬进了 AI 世界。 ViMax 的 "一人剧组" 有多强? 它就像一个数字化的全能团队 ——AI 编剧负责写剧本,AI 导演掌控节奏和镜头语言,AI 摄像师负责构图和视觉呈现,AI 剪辑师 精心打磨每个细节。这些 AI 小伙伴会自己讨论创意,分配任务,协调配合。你只需要输入一个想法,AI 就能独立完成整个制作流程,输出千赞级别的视频内容。 在 AI 视频制作领域,我们正在见证一场从 "片段生成" 到 "系统化制作" 的重要转变。这不仅仅是技术升级,更是创作方式的根本改变。 实验室地址:https://sites.goog ...
提示词一响,烂片登场,OpenAI谈下200+迪士尼顶级IP出场费
机器之心· 2025-12-12 10:06
机器之心报道 机器之心编辑部 AI 版权战不再是想着怎么把 IP 彻底锁起来不让 AI 碰,而是要谈一个合适的出场费。你猜,朱迪、尼克还要多久就会飙脏话? 消息一出,网友直接炸锅。 未来三年,只要你是 Sora 用户,迪士尼这些顶级 IP 角色,都能随手捏。 迪士尼不但不找麻烦,反而选择亲自开闸放水。 事情是这样的。 迪士尼刚官宣,将向 OpenAI 投资 10 亿美元,并签下一份为期三年的合作协议,授权 Sora 使用旗下 IP,用于生成短视频内容。 一夜之间,OpenAI 直接拿到了 200 多个国际公认顶级IP的合法使用权。 包括迪士尼经典,米奇、米妮、灰姑娘、小美人鱼等。 很多人喜欢的皮克斯IP,比如《玩具总动员》、《头脑特工队》、《超能陆战队》。 当然,这次授权仅限动画或插画版本,不涉及任何真人演员的肖像与声音(毕竟,太难、太棘手)。 OpenAI 拿到了授权,还顺手收下 10 亿美元新投资。那么,迪士尼图啥呢? 首先,10 亿美元对于年营收 900 多亿美元的迪斯尼来说,不算啥。 其次,有了 OpenAI 的股份,迪士尼就能将这些角色带到 Z 世代和 Alpha 世代聚集的平台。 还有生产力工具。 ...
里程碑时刻!首个100B扩散语言模型来了,技术报告揭秘背后细节
机器之心· 2025-12-12 04:31
机器之心报道 编辑:杜伟、张倩 万万没想到,年初还是个小众方向的「扩散语言模型(dLLM)」,现在已经被扩展到千亿参数的规模了。 前段时间,我们在 HuggingFace 页面发现了两个新模型:LLaDA2.0-mini 和 LLaDA2.0-flash。它们 来自蚂蚁集团与人大、浙大、西湖大学组成的联合团队,都采用 了 MoE 架构。前者总参数量 为 16B,后者总参数量则高达 100B—— 在「扩散语言模型」这个领域,这是从未见过的规模。 更令人欣慰的是,模型变大了,也确实变强了:在涵盖知识、推理、编码、数学、智能体与对齐几大维度的 47 个基准测试中,LLaDA2.0-flash 平均得分 73.18, 与强 AR(自回归)模型 Qwen3-30B-A3B-Instruct-2507(73.60)持平 ,在编码(如 HumanEval、MBPP)、智能体(BFCL)等复杂任务上优势显著。 长期以来,自回归生成范式在大模型领域始终占据主导地位,这种从前到后依次生成下一个 token 的方法曾被寄予厚望。然而,其固有弊端也逐渐显现:长文本生 成的计算成本较高、推理速度较慢,且难以捕捉 token 之间的双向 ...
Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了
机器之心· 2025-12-12 04:31
机器之心编辑部 GPT-5.2 更新 的同时,主攻 AI 视频与多媒体生成技术的独角兽 Runway 也来了一波大的:一口气来了 5 个「激动人心的宣布」。 这一波更新之猛,甚至让人觉得他们是不是把过去半年的大招一次性全放了出来。Runway 这一波发布,不仅刷新了视频生成的各项指标,更重要的是,他们正式 对外展示了其在 通用世界模型(General World Models/GWM) 上的野心。 如果说之前的竞争还在于谁生成的视频更清晰、谁的时间更长,那么 Runway 今天似乎想说:「我们不再只是生成像素,我们在模拟世界。」 此次发布的「全家桶」阵容豪华: 更有意思的是,为了庆祝这一时刻,英伟达 CEO 黄仁勋还专门给 Runway 发来了一条特别的节日祝福。 机器之心报道 话不多说,下面我们就来看看 Runway 到底要把我们带向一个怎样的未来。 Gen-4.5 作为 Runway 最新的旗舰视频模型,Gen-4.5 主打的是画面保真度和创意控制能力。 Gen-4.5 :最新的旗舰视频生成模型,不仅画质惊人,更引入了原生音频生成与编辑功能。 GWM-1 :Runway 的首个通用世界模型,这是理解物理世 ...
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔
机器之心· 2025-12-12 03:41
机器之心发布 机器之心编辑部 在 Physical Intelligence 最新的成果 π 0.6 论文里,他们介绍了 π 0 .6 迭代式强化学习的思路来源: 图注:VLA模型依赖研读微调 在具身智能(Embodied AI)领域,科学家们正在尝试将强大的视觉-语言模型(VLM)应用到机器人的底层控制中,这就是所谓的VLA模型。 通常,这些 模型是通过模仿人类专家的示范数据(监督微调,SFT)来学习的。 其中有我们熟悉的 Yuke Zhu 的研究,也有他们自己(Chelsea Finn、Sergey Levine)的一些研究,我们之前对这些工作一直有跟踪和介绍。此外,还有 来自国内具身智能团队的工作,比如清华大学、星动纪元的研究。 随着 π*0.6 的发布,VLA+online RL 成为了一个行业共识的非常有前景的研究方向 ( 深扒了Π*0.6的论文,发现它不止于真实世界强化学习 、 英伟达也来做VLA在真实世界自我改进的方法了 )大语言模型从SFT到RL的发展方向也逐渐在具 身研究中清晰明朗。 一、为什么VLA+RL很重要 但是,仅靠模仿是不够的。 如果机器人遇到了从未见过的情况,或者专家数据不够完美 ...
Meta「内战」升级:做「神一般的AI」,还是守住「社交帝国」?
机器之心· 2025-12-12 03:41
机器之心报道 编辑:+0 随着扎克伯格将公司战略重心从「元宇宙」全面转向人工智能,公司内部正面临多重挑战。 据《纽约时报》报道,Meta 新组建的顶尖 AI 团队与公司原有的核心业务部门之间,在资源分配、发展目标及文化融合上产生了摩擦。 今年,扎克伯格重组了 Meta 的人工智能业务,并以约 143 亿美元战略投资了初创公司 Scale AI。其 28 岁的创始人 Alexandr Wang 随后加入 Meta, 领导一个名为「TBD Lab」(意为「待定」)的新研究团队。该团队汇集了来自 OpenAI 和 Google 等竞争对手的顶尖研究人员。据《泰晤士报》报道, 当新团队于 7 月抵达 Meta 硅谷园区时,扎克伯格将他们安置在总部中心他办公室的隔壁。 此前我们曾报道过 Meta 内部因为 薪酬、资源、工作制度等产生的新旧团队文化冲突 ,如今这种冲突似乎愈演愈烈。 据相关报道披露,冲突的核心在于 AI 发展的优先事项。Meta 的长期高管,包括首席产品官 Chris Cox 和首席技术官 Andrew Bosworth, 希望利用 Instagram 和 Facebook 的数据来训练新模型,旨在优化社 ...
NUS LV Lab新作|FeRA:基于「频域能量」动态路由,打破扩散模型微调的静态瓶颈
机器之心· 2025-12-12 03:41
然而,现有的微调方法(如 LoRA、AdaLoRA)大多采用「静态」策略:无论模型处于去噪过程的哪个阶段,适配器(Adapter)的参数都是固定不变的。这种 「一刀切」的方式忽略了扩散生成过程内在的时序物理规律,导致模型在处理复杂结构与精细纹理时往往顾此失彼。 针对上述问题, 新加坡国立大学 LV Lab(颜水成团队) 联合电子科技大学、浙江大学等机构提出 FeRA (Frequency-Energy Constrained Routing) 框架: 首次从 频域能量的第一性原理出发,揭示了扩散去噪过程具有显著的「低频到高频」演变规律,并据此设计了动态路由机制。 FeRA 摒弃了传统的静态微调思路,通过实时感知潜空间(Latent Space)的频域能量分布,动态调度不同的专家模块。实验结果显示, FeRA 在 SD 1.5、SDXL、 Flux.1 等多个主流底座上,于风格迁移和主体定制任务中均实现了远超 baseline 的生成质量。 尹博:NUS 计算机工程硕士生、LV Lab 实习生,研究方向是生成式 AI,及参数高效率微调(PEFT)。 胡晓彬:NUS LV Lab Senior Research ...
刚刚,GPT-5.2满分屠榜,OpenAI十周年王者归来
机器之心· 2025-12-11 23:48
机器之心报道 机器之心编辑部 谷歌的领先优势,只保持了不到一个月。 今天是 OpenAI 的十周年纪念日,十周年之际,来点大的。 在「红色警报」后,OpenAI 在北京时间本周五拿出了最新的顶级模型 GPT-5.2 系列 —— 迄今为止在专业知识工作上最强大的模型系列。 GPT-5.2 Thinking ,为专业级工作全面提升标准: 业界最先进的长上下文推理能力 与 GPT-5.1 一样温暖、对话自然 更清晰的讲解,把关键信息提前呈现 改进的操作指南与分步骤讲解 更强的技术写作与翻译能力 更好地支持学习与职业规划 GPT-5.2 Pro ,在面对困难问题时最聪明、最值得信赖的模型: GPT-5.2 的设计目标,就是为人们创造更多经济价值:它在制作电子表格、构建演示文稿、编写代码、理解图像、处理超长上下文、使用工具,以及执行 复杂的多步骤项目方面都有显著提升。 真正的生产力不是空口无凭,让我们来看看数据,GPT-5.2 到底有多强。 在如图所示的众多基准测试中,GPT-5.2 均刷新了最新的 SOTA 水平。 简而言之,OpenAI 本次推出: GPT-5.2 Instant ,为日常工作与学习而打造: | | ...
谷歌发布智能体Scaling Law:180组实验打破传统炼金术
机器之心· 2025-12-11 23:48
Core Insights - The article discusses the emergence of intelligent agents based on language models that possess reasoning, planning, and action capabilities, highlighting a new paper from Google that establishes quantitative scaling principles for these agents [1][7]. Group 1: Scaling Principles - Google defines scaling in terms of the interaction between the number of agents, collaboration structure, model capabilities, and task attributes [3]. - The research evaluated four benchmark tests: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench, using five typical agent architectures and three LLM families [4][5]. Group 2: Experimental Findings - The study involved 180 controlled experiments across various scenarios, demonstrating that the effectiveness of multi-agent collaboration varies significantly depending on the task [10][11]. - In finance tasks, centralized architectures can enhance performance by 80.9%, while in game planning tasks, multi-agent systems can lead to performance drops of 39% to 70% due to high communication costs [14]. Group 3: Factors Affecting Agent Performance - Three core factors hindering agent scalability were identified: 1. The more tools required, the harder collaboration becomes, leading to inefficiencies [15]. 2. If a single agent is already sufficiently capable, adding more agents can yield negative returns [16]. 3. Without a centralized commander, errors can amplify significantly, highlighting the importance of architectural design [18]. Group 4: Model Characteristics - Different models exhibit distinct collaborative characteristics: - Google Gemini excels in hierarchical management, showing a 164.3% performance increase in centralized structures [19]. - OpenAI GPT performs best in hybrid architectures, leveraging complex communication effectively [20]. - Anthropic Claude is sensitive to communication complexity and performs best in simple centralized structures [20]. Group 5: Predictive Model Development - Google derived a predictive model based on efficiency, overhead, and error amplification, achieving an 87% accuracy rate in predicting the best architecture for unseen tasks [22][25]. - This marks a transition from an era of "alchemy" in agent system design to a more calculable and predictable "chemistry" era [26].
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年
机器之心· 2025-12-11 10:00
Core Insights - The article highlights the significance of the "Test of Time Award" received by the paper "Faster R-CNN," co-authored by renowned researchers, marking its impact on the field of computer vision since its publication in 2015 [1][5][25] - The presentation by He Kaiming at NeurIPS 2025 summarizes the evolution of visual object detection over the past 30 years, showcasing key milestones and influential works that have shaped the field [6][31] Historical Development - The early attempts at face detection in the 1990s relied on handcrafted features and statistical methods, which were limited in adaptability and speed [12] - The introduction of AlexNet in 2012 demonstrated the superior feature extraction capabilities of deep learning, paving the way for its application in object detection [15] - The R-CNN model, proposed in 2014, revolutionized object detection by integrating CNNs for feature extraction and classification, although it initially faced computational challenges [17][18] Technological Advancements - The development of Faster R-CNN in 2015 addressed the speed bottleneck by introducing the Region Proposal Network (RPN), allowing for end-to-end real-time detection [25] - Subsequent innovations, such as YOLO and SSD in 2016, further enhanced detection speed by enabling direct output of object locations and categories [32] - The introduction of Mask R-CNN in 2017 added instance segmentation capabilities, while DETR in 2020 redefined detection using Transformer architecture [32][34] Future Directions - The article concludes with reflections on the ongoing exploration in computer vision, emphasizing the need for innovative models to replace outdated components as bottlenecks arise [35][36]