机器之心

Search documents
Sutton判定「LLM是死胡同」后,新访谈揭示AI困境
机器之心· 2025-10-15 07:33
Core Viewpoint - The article discusses Rich Sutton's critical perspective on large language models (LLMs), suggesting they may not align with the principles outlined in his work "The Bitter Lesson" and highlighting their limitations in learning from real-world interactions [1][3][22]. Group 1: Limitations of LLMs - Sutton argues that LLMs have significant flaws, particularly their inability to learn from ongoing interactions with the environment [3][21]. - He emphasizes that true intelligence should emerge from continuous reinforcement learning through dynamic interactions, rather than relying on extensive pre-training and supervised fine-tuning [3][4][22]. - The reliance on human knowledge and data in LLMs may lead to a lack of scalability and potential failure to meet expectations, as they are fundamentally limited by the biases present in the training data [24][25][26]. Group 2: Alternative Perspectives on Intelligence - Experts in the discussion, including Suzanne Gildert and Niamh Gavin, express skepticism about achieving pure reinforcement learning, suggesting that current systems often revert to imitation learning due to the difficulty in defining universal reward functions [7][11]. - The conversation highlights the need for systems that can autonomously learn in new environments, akin to how a squirrel learns to hide nuts, rather than relying solely on pre-existing data [8][10]. - There is a consensus that while LLMs exhibit impressive capabilities, they do not equate to true intelligence, as they lack the ability to explore and learn from their environment effectively [33][35]. Group 3: The Future of AI Development - The article suggests that the AI field is at a crossroads, where the dominance of certain paradigms may hinder innovation and lead to a cycle of self-limitation [28][29]. - Sutton warns that the current trajectory of LLMs, heavily reliant on human imitation, may not yield the breakthroughs needed for genuine understanding and reasoning capabilities [22][24]. - The discussion indicates a shift towards exploring more robust learning mechanisms that prioritize experience and exploration over mere data absorption [28][30].
清华&巨人网络首创MoE多方言TTS框架,数据代码方法全开源
机器之心· 2025-10-15 04:08
无论是中文的粤语、闽南话、吴语,还是欧洲的荷兰比尔茨语方言、法国奥克语,亦或是非洲和南美的地方语言,方言都承载着独特的音系与文化记忆,是人类 语言多样性的重要组成部分。然而,许多方言正在快速消失,语音技术如果不能覆盖这些语言,势必加剧数字鸿沟与文化失声。 在当今 大模型引领的语音合成时代 ,通用 TTS 系统已展现出令人惊叹的能力,但方言 TTS 依然是相关从业者难以触及的「 灰色地带」。现有的工业级模型往往 依赖 巨量专有数据 ,这让 方言 TTS 从业者和研究者几乎无从下手 :缺乏统一的语料构建方法,更缺乏一个可实现多语言的端到端开源框架。 为此,来自巨人网络 AI Lab 与清华大学电子工程系 SATLab 的研究团队联合首创了 DiaMoe-TTS —— 一个在一定程度上媲美工业级方言 TTS 模型的开源全套解决 方案。他们基于语言学家的专业经验,构建了一个统一的 IPA 表达体系,并且在仅依赖开源方言 ASR 数据的前提下提出这一方案。 在推出中文方言版本之前,研究团队已在 英语、法语、德语、荷兰比尔茨语 等多语种场景中进行过验证,确保该方法具备全球范围内多语言的可扩展性与稳健 性。 最重要的是,D ...
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
机器之心· 2025-10-15 04:08
大家或许都有过这样的体验: 看完一部喜欢的动漫,总会心血来潮地想去 "圣地巡礼";刷到别人剪辑精美的旅行 vlog,也会忍不住收藏起来,想着哪天亲自走一遍同样的路线。旅行与影像的 结合,总是能勾起人们的探索欲望。那么,如果 AI 能自动看懂这些旅行视频,帮你解析出 "去了哪些地方""顺序是怎样的",甚至还能一键生成属于你的旅行计 划,会不会很有趣?这不仅仅是阿宅的想象,更是多模态大模型在真实世界应用中的一个重要场景。 正是在这样的启发下,来自日本早稻田大学,CyberAgent 和奈良先端科学技术大学院大学的团队提出了一个全新的多模态大模型评估基准 VIR-Bench ,旨在评测 AI 是否真的能理解旅行视频中的地理位置与时间顺序,从而支撑更复杂、更实用的应用。用一句话来概括,这项研究就是在追问:"我从哪里来?我要到哪里 论文地址:https://www.arxiv.org/abs/2509.19002 在 VIR-Bench 中,给定一个旅行 vlog(在日本拍摄),模型要输出 访问顺序图 (visiting order graph),也就是 "我去了哪些地点、按什么顺序、地点之间有哪些 包含关系" 的结构 ...
50万激励,腾讯青云奖学金启动申请
机器之心· 2025-10-15 04:08
Core Viewpoint - The establishment of the Tencent Qinyun Scholarship aims to alleviate the long-standing computational resource shortages faced by academic researchers, particularly in the AI field, enabling them to focus on meaningful scientific exploration [1][6]. Group 1: Challenges in Academic Research - The lack of computational power is identified as a critical constraint for academic researchers compared to industry and large tech companies [1]. - A survey published in Nature revealed that many scholars feel frustrated with limited computational resources for AI research, with 66% of respondents rating their satisfaction with available resources at 3 or lower on a scale of 5 [3]. Group 2: Industry Response - Major tech companies are launching various funding programs to address the computational resource shortages in academia, such as AWS Cloud Credits for Research and free cloud credits from Google and Microsoft [5]. - Domestic universities are also taking measures to alleviate students' computational anxiety, with Tsinghua University recently distributing computational vouchers to students [5]. Group 3: Tencent Qinyun Scholarship - The Tencent Qinyun Scholarship provides not only cash rewards but also essential computational resources for young scholars, particularly top doctoral students who prioritize long-term research value over short-term returns [6][15]. - Each awardee will receive 200,000 yuan in cash and 300,000 yuan worth of cloud heterogeneous computing resources, which can significantly enhance their research capabilities [15][17]. - The scholarship aims to stimulate innovation among young scholars and support breakthroughs in the AI field [6][15]. Group 4: Computational Resource Value - The 300,000 yuan worth of computational resources can support 24/7 usage of cutting-edge GPU instances for three months or 2,000 hours of usage on an 8-card GPU setup, providing substantial support for research [17][19]. - Awardees can flexibly configure their computational resources based on their research needs, which is crucial for the varying demands of large model research [19][20]. Group 5: Industry-Academic Collaboration - The scholarship serves as a direct and effective means for tech companies to connect with academia, facilitating talent acquisition and fostering innovation [14][23]. - Tencent's extensive business matrix, including social media, content production, and cloud services, provides a rich ecosystem for the application of AI technologies [24][25].
大的来了:谷歌Gemini 3.0 Pro单次生成网页版操作系统,Win、Mac、Linux一网打尽
机器之心· 2025-10-15 04:08
机器之心报道 编辑:冷猫 先给各位读者看个视频: Prompt : Design and create a web os like mac os full functional features from text editor , to dile manager to paint to video editor and all important mac os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block 这条视频在海外平台爆火,这条推文已经获得了 140 多万的浏览。 看上去没什么特别的,只是一个复刻苹果 MacOS 的操作系统 ...
刚刚,UCLA周博磊也加入了一家机器人公司
机器之心· 2025-10-15 02:54
机器之心报道 机器之心编辑部 刚刚,加州大学洛杉矶分校(UCLA)副教授周博磊官宣加入机器人初创公司 Coco Robotics,专注于人行道自动驾驶这一难题! 与此同时,Coco Robotics 联合创始人兼 CEO Zach Rash 也宣布了一个好消息, 正式成立 Physical AI Lab,周博磊任首席 AI 科学家 。 Coco Robotics 成立于 2020 年,是一家专注于「最后一公里」配送的机器人初创公司。早期,公司依赖远程操作员(teleoperators)协助机器人规避配送路径中的障 碍。五年过去,伴随技术成熟与数据积累,Coco 接下来想要尝试深入挖掘其机器人车队在真实世界中采集的大量运行数据。 Rash 说:「周博磊是全球在机器人导航、强化学习等多个与我们高度相关的技术和研究领域中最顶尖的研究者之一。我们已经成功招募了一批世界一流的研究人 员,都是以往合作过的同事。加入 Coco,帮助公司加速推进各项研发。」 值得一提的是,这家新的研究实验室是独立于 Coco Robotics 与 OpenAI 的合作关系的(此前 Sam Altman 个人为该公司提供了资金支持,但 Ope ...
北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练
机器之心· 2025-10-15 02:54
AIME2024 上的学习表现 技术方案概述:用「风险度量」破局,MVaR + 捆绑策略双管齐下 为解决传统均值优化的缺陷, 北大团队提出 RiskPO ,核心突破在于 将风险规避(risk-averse)理念融入优化目标, 用「关注奖励分布左尾(难任务)」替代 「追求整体均值」,从根本上引导模型突破推理短板。 该项目由北京大学彭一杰教授课题组完成,第一作者为任韬,其他作者包括江金阳、杨晖等。 研究背景与挑战:大模型后训练陷入「均值陷阱」,推理能力难破界 当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范 式。从数学解题到代码生成,RLVR 本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑 —— 但现实是, 以 GRPO 为代表的主流方法正陷入 「均值优化陷阱」。 这些基于均值的优化策略,过度聚焦高概率输出序列,却忽略了「低概率但高信息密度」的推理路径:模型训练早期就会出现熵坍缩,过早丧失探索能力;面对 全错的难题时,优势函数直接归零,模型在薄弱环节完全无法学习。最终结果是, 大模型看似在 Pass@1 ...
NeurIPS 2025 Spotlight | 条件表征学习:一步对齐表征与准则
机器之心· 2025-10-15 02:54
本文第一作者为四川大学博士研究生刘泓麟,邮箱为 tristanliuhl@gmail.com ,通讯作者为四川大学李云帆博士后与四川大学彭玺教授。 一张图片包含的信息是多维的。例如下面的图 1,我们至少可以得到三个层面的信息:主体是大象,数量有两头,环境是热带稀树草原(savanna)。然而,如果 由传统的表征学习方法来处理这张图片,比方说就将其送入一个在 ImageNet 上训练好的 ResNet 或者 Vision Transformer,往往得到的表征只会体现其主体信息, 也就是会简单地将该图片归为大象这一类别。这显然是不合理的。 图 1 :传统表征学习(上)与条件表征学习(下)的比较。传统的表征学习方法只能学习到一种通用的表征 ,忽略了其他有意义的信息;文章提出的条件表征学习能够基于指定准则,得到该准则下表现 力更强的条件表征,适应多种下游 任务。 此外,在各大电商平台,用户通常根据不同的标准(例如颜色、材质或场合)搜索商品。例如,用户今天可能搜索 "红色连衣裙",明天搜索 "正装",后天搜索某 个全新的关键词。这对于拥有庞大规模商品的平台来说,手动打标签是不现实的,而传统的表征学习也仅仅只能获取到 ...
VAE时代终结?谢赛宁团队「RAE」登场,表征自编码器或成DiT训练新基石
机器之心· 2025-10-14 08:24
| 机器之心报道 | | --- | | 机器之心编辑部 | | 存在 10 多年后,VAE(变分自编码器)时代终于要淘汰了吗? | | 就在今天,纽约大学助理教授谢赛宁团队放出了新作 ——VAE 的替代解决方案 —— RAE(Representation Autoencoders,表征自编码器) 。 | | 他表示,三年前,DiT(Diffusion Transformer) 用基于 Transformer 的去噪骨干网络取代了传统的 U-Net。那时候就知道,笨重的 VAE 迟早也会被淘汰。如今,时 | | 机终于到了。 | 谢赛宁进一步做出了解释,DiT 虽然取得了长足的进步,但大多数模型仍然依赖于 2021 年的旧版 SD-VAE 作为其潜空间基础。这就带来了以下几个主要问题: 当然,RAE 的模型和 PyTorch 代码全部开源。这项工作的一作为一年级博士生 Boyang Zheng,其本科毕业于上海交通大学 ACM 班。 因此,谢赛宁团队将预训练的表征编码器(如 DINO、SigLIP、MAE)与训练好的解码器相结合,以取代传统的 VAE,形成了一种新的结构 —— 表征自编码器 (RAE)。 这种 ...
老牌Transformer杀手在ICLR悄然更新:Mamba-3三大改进趋近设计完全体
机器之心· 2025-10-14 08:24
机器之心报道 编辑:冷猫 至今为止 Transformer 架构依然是 AI 模型的主流架构,自从其确立了统治地位后,号称 Transformer 杀手的各类改进工作就没有停止过。 在一众挑战者中最具影响力的自然是 2023 年社区爆火的基于结构化的状态空间序列模型(SSM)架构的 Mamba。 Mamba 的爆火可能和名字有关,但硬实力确实强大。 在当时,Mamba 在语言建模方面可以媲美甚至击败 Transformer。而且,它可以随上下文长度的增加实现线性扩展,其性能在实际数据中可提高到百万 token 长度 序列,并实现 5 倍的推理吞吐量提升。 在 Mamba 问世后,涌现出了超多在不同任务上使用 Mamba 的工作以及一些改进工作,诞生了了 MoE-Mamba、Vision Mamba、VMamba、U-Mamba、 MambaByte、MambaOut 等多项工作,被称为 「Tra nsfor mer 最有力的继任者」 。 但 Mamba 在 2024 年的 ICLR 会议中遭遇了滑铁卢 ,最终还是被拒稿。 在 2024 年,在 Mamba 发布的半年后, Mamba-2 正式发布 ,拿下了顶会 ...