Workflow
机器之心
icon
Search documents
DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估
机器之心· 2025-12-07 04:33
近日,由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models(检测情感动态轨迹:大语言模型情感支持的评估框架)》论文,获 AAAI 2026 录用。 AAAI 由国际人工智能促进协会(Association for the Advancement of Artificial Intelligence, AAAI)主办,是人工智能领域极具影响力的国际顶级学术会议之一,也 是中国计算机学会(CCF)推荐的 A 类国际学术会议,在全球学术界和工业界具有广泛影响力。 本届会议共收到来自世界各地的投稿摘要 31000 篇,最终录用 4167 篇,录用率仅为 17.6%,创历史新低。 研究背景 情感支持是人类与人工智能交互的核心能力,现有的大语言模型(LLMs)评估往往依赖于简短、静态的对话,未能捕捉到情感支持的动态和长期性质。 对于大语言模型情感能力的评价是做好自研的关键,团队分析了情感支持对话(ESC)目前 ...
两个LLM互相对线,推理能力起飞:康奈尔团队发布大模型版类GAN训练法
机器之心· 2025-12-07 02:52
大型语言模型(LLMs)虽然通过可验证奖励的强化学习(RLVR)取得了显著进展,但仍然在很大程度上依赖外部监督(例如人工标注的数据)。自博弈(self- play)提供了一种有前景的替代方案,使模型能够通过与自身反复对抗来学习,从而减少对外部监督的依赖。GAN 则提供了另一种更具吸引力的训练范式:通过 对抗式地训练两个模型,其中一个模型专注于生成具有挑战性的任务或对抗样本,另一个模型则专注于解决这些任务。 于是问题来了:LLM 是否也可以像 GAN 一样进行训练?我们的希望是,通过赋予每个模型不同的专门化角色,可以促进持续的竞争与共同进化,从而让它们能 够解决单一模型可能从根本上无法胜任的任务。 为解决这一难题,来自康奈尔大学的 NLP 团队提出了 Pa soDo ble ,一个面向大语言模型的全新类 GAN 训练框架。PasoDoble 通过对抗式地训练 两个几乎相同的 模型 :Proposer 用于生成带有标准答案的高难度问题,Solver 则尝试解决这些问题。我们进一步利用高质量的数学预训练语料,并引入离线训练范式,以缓解潜在 的训练不稳定性。值得注意的是,PasoDoble 在整个训练过程中 不依赖 ...
M系列芯片一号人物准备离开,苹果高管流失正在失控
机器之心· 2025-12-07 02:52
机器之心编辑部 机器之心报道 近些天,苹果高管变动的风波就没断过。 12 月 1 日,苹果负责 机器学习与人 工智能 战略 的高级副总裁约翰・詹南德雷亚(John Giannandrea)正式宣布退休,在正式退休前担任公司顾问职务,其退休时 间预计为 2026 年春季。 同时,苹果还宣布,知名人工智能研究员阿马尔・苏布拉马尼亚(Amar Subramanya)已加入苹果,出任人工智能副总裁,并向高级副总裁 Craig Federighi 汇报工 作。 这一事件标志着苹果对人工智能定位的转变,AI 不再是一个单独向库克汇报的部门,而从属于软件工程之下。 据报道,Dye 跳槽的原因有很大一部分在于对苹果在人工智能领域进展缓慢的失望。 众所周知,苹果现在保持足够竞争力的主要支柱,一个是出众的工业和美学设计,另一个则是行业领先的芯片设计。 但遗憾的是,苹果设计总监已经决定离开,而 「苹果芯片」之父也已经正在考虑离开苹果。 彭博社报道称,苹果公司 硬件技术高级副总裁 约翰尼・斯鲁吉(Johny Srouji)已向蒂姆・库克(Tim Cook)表示: 他正在「认真考虑」在不久的将来离开苹果,前往另一家公司。 早在今年 1 ...
更多非共识,Test-time Scaling 能否一直大力出奇迹?
机器之心· 2025-12-07 01:30
Test-time Scaling 有哪些非共识?流行的 Sequential 和 Parallel 路线有何局限?Test-time Scaling 为何需要「Better Search」?「温度」如何影响 Scaling 效果?Test-time Scaling 有哪些 「Where」需要改进?... 机器之心PRO · 会员通讯 Week 49 --- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 --- 1. 多非共识,Test-time Scaling 能否一直大力出奇迹? 2. Skills vs MCP,谁才是 「大模型的 HTTP 时刻」? 一年过去,社区对于 MCP 的定位仍有争议?平均 25 个用户对应 1 个开发者,MCP 目前更多是开发者自娱自乐的产物?「人如其名」,Skills 真是来 kill MCP 的?MCP 能做但 Skills 不能做 的,现在也没什么用?MCP 大规模落地还得看下一个「微信小程序」入口的出现?... 3. 从否定单模 AGI 到回应开源冲击,OpenAI 如何打造「最强平台」? 曾被视为真理的「单模 AGI」为何在商业现实面前彻底梦 ...
刚刚,英伟达CUDA迎来史上最大更新!
机器之心· 2025-12-06 04:08
机器之心报道 机器之心编辑部 几个小时前, NVIDIA CUDA Toolkit 13.1 正式发布, 英伟达官方表示: 「这是 20 年来最大的一次更新。」 这个自 2006 年 CUDA 平台诞生以来规模最大、最全面的更新包括: 下面我们就来具体看看。 CUDA Tile CUDA Tile 是 NVIDIA CUDA Toolkit 13.1 最核心的更新。 它是一种基于 tile 的编程模型,能够以更高的层次编写算法,并抽象化专用硬件(例如张量核心)的细 节。 NVIDIA CUDA Tile 的发布, 这是英伟达基于 tile 的编程模型,可用于抽象化专用硬件,包括张量核心。 Runtime API exposure of green contexts (是指把所谓的 Green Context「指轻量级的、可并发调度的上下文或执行环境」暴露给外部调用者使用。) NVIDIA cuBLAS 中的双精度和单精度仿真。 一本完全重写的 CUDA 编程指南 , 专为 CUDA 新手和高级程序员设计。 解读 CUDA Tile 的核心概念 英伟达博客解释说: CUDA Tile 可让开发者在高于 SIMT ...
Yann LeCun离开Meta后首篇论文?使用了宇树机器人做研究
机器之心· 2025-12-06 04:08
Core Insights - The article discusses a groundbreaking research paper that introduces a method called GenMimic, enabling humanoid robots to perform actions generated from AI video models without prior examples [1][3][4]. Research Contributions - The research presents a universal framework for humanoid robots to execute actions generated by video models [4]. - GenMimic employs a new reinforcement learning strategy that utilizes symmetric regularization and selectively weighted 3D keypoint rewards for training, allowing generalization to noisy synthetic videos [4]. - The team created a synthetic human action dataset named GenMimicBench, which serves as a scalable benchmark for evaluating zero-shot generalization and policy robustness [4][8]. GenMimicBench Dataset - GenMimicBench consists of 428 generated videos created using advanced video generation models Wan2.1 and Cosmos-Predict2 [9][11]. - The dataset includes a wide range of subjects, environments, and action types, from simple gestures to complex interactions with objects [11][13]. - It is designed to stress-test the robustness of humanoid robot control strategies under varying visual and action distributions [13]. Methodology Overview - The proposed method involves a two-stage process for executing humanoid robot actions from generated videos [15][17]. - The first stage focuses on reconstructing the humanoid robot's 4D model from the input RGB video, while the second stage translates this model into executable actions [17][18]. - The strategy emphasizes robustness to variations and noise in the input data by using 3D keypoints instead of joint angles [19][20]. Experimental Results - The team conducted extensive experiments on both the GenMimicBench dataset and a real-world 23-DoF humanoid robot, demonstrating significant improvements over strong baseline models [29][30]. - In simulations, GenMimic achieved a success rate (SR) of 29.78% and outperformed existing models in various metrics [31]. - Real-world experiments showed that the strategy successfully replicated a wide range of upper-body actions, although challenges remained with lower-body movements [34][35].
AAAI 2026|新突破:北大彭宇新团队提出可见光-红外终身行人重识别方法CKDA
机器之心· 2025-12-06 04:08
论文链接:http://arxiv.org/abs/2511.15016 代码仓库:https://github.com/PKU-ICST-MIPL/CKDA-AAAI2026 终身行人重识别 旨在持续学习新增数据中不断涌现的新增行人鉴别性信息,同时保持对已知数据的识别能力,在公共安防、社区管理、运动分析等场景中具有重 要的研究和应用价值。 随着白天可见光图像和夜晚红外图像被不断采集,现有终身行人重识别方法需要持续学习特定模态中的新知识(例如:仅适用于红外模态中的热辐射信息)。 然而,特定模态中新知识的学习过程阻碍了模态间公共旧知识(例如:同时适用于可见光与红外模态的人体体态信息)的保留,导致了单模态专用知识的获取与 跨模态公共知识的保留间的冲突,进而限制了持续学习场景下平衡不同模态中行人鉴别性知识的能力。 针对这一问题, 北京大学彭宇新教授团队 提出了 跨模态知识解耦与对齐的可见光 - 红外终身行人重识别方法 CKDA, 通过跨模态通用提示模块与单模态专用提 示模块显式地解耦并净化不同模态通用与特定模态专用的鉴别性信息,从而避免二者间的相互干扰,并在一对彼此独立的模态内与模态间特征空间中分别对齐解 耦后的新 ...
Skills vs MCP,谁才是「大模型的 HTTP 时刻」?
机器之心· 2025-12-06 02:30
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 目录 01. builder 比 user 还多,MCP 仅是「旧瓶装新酒」? 一年过去,社区对于 MCP 的定位仍有争议?平均 25 个用户对应 1 个开发者,MCP 目前更多是开发者自娱自乐的产物?... 02 . Not Skills vs MCP, but Skills with MCP? 「人如其名」,Skills 真是来 kill MCP 的?MCP 能做但 Skills 不能做的,现在也没什么用?... 03 . 过去一年,围绕 MCP 的 infra 层格局逐渐清晰? MCP 大规模落地还得看下一个「微信小程序」入口的出现?... builder 比 user 还多,MCP 仅是「旧瓶装新酒」? 引言: 近期,Anthropic 新推出的 Claude Skills 在社区内收获了相对一致的好评,被不少开发者视为「终于能直接拿来用」的能力;几乎同一时间,MCP 协议的「一周年纪 念日」却在一片「寂静」中度过。实际上从发布以来,MCP 的「builder 多于 user」、只是「旧瓶装新酒」的质疑始终存在,而在 Sk ...
AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」,过程感知视频理解如何找到「状态」锚点?
机器之心· 2025-12-06 01:15
摘要 / 导语: 在具身智能与视频理解飞速发展的今天,如何让 AI 真正 "看懂" 复杂的操作步骤?北京航空航天大学陆峰教授团队联合东京大学,提出视频理解新 框架。该工作引入了 "状态(State)" 作为视觉锚点,解决了抽象文本指令与具象视频之间的对齐难题,已被人工智能顶级会议 AAAI 2026 接收。 在当今的视频理解和具身智能领域,教 AI 理解 "做菜" 或 "修理电器" 等程序性活动具有重要意义。然而,当这一需求遭遇现有的图文对齐范式时,一个难以忽视 的「语义鸿沟」(Semantic Gap)横亘在研究者面前。 现有的程序性视频学习方法面临数据困境:要么依赖极其昂贵的时间密集型标注,难以扩展;要么利用 WikiHow 等外部知识库进行弱监督学习,将视频帧与 "任 务(Task)" 或 "步骤(Step)" 的文本描述强行对齐。 但弱监督的方式仍然存在优化空间:抽象的语言描述与具体的视觉像素之间存在断层。当文本指令是 "切橙子"(Cut oranges)时,视频中呈现的是橙子从完整状 态到果肉外露的连续视觉形态变化,而非明确的动作过程。二者之间的不匹配导致模型难以准确识别和理解视频所表达的实际过程。 ...
IJCAI 2026每篇投稿收100美元,学术圈却评价颇高
机器之心· 2025-12-06 01:15
机器之心报道 大模型辅助写作,辅助审稿的出现,已经打破了原有学术会议投稿评审体系的良性循环。 简而言之,投稿到顶会的论文数量激增,导致审稿系统不堪重负,于是导致了低质量评审,大模型辅助评审,甚至完全的 AI 评审的大量出现,最离谱的就是被我 们反复鞭尸的 「Who's Adam」 经典笑话。 在这也不得不提最近处于风口浪尖的 ICLR 2026,有第三方机构在对 75800 篇论文的审稿意见统计中竟然有 21% 完全由 AI 生成、4% 重度由 AI 编辑、9% 中度由 AI 编辑、22% 轻度由 AI 编辑, 完全由人类( 审稿人)撰写 的仅占 43% 。 不光审稿如此,投稿论文数量暴增的情况下,很难说有多少论文是 AI 撰写的。 这极大程度影响了学术顶会的信誉,毕竟谁也不想被扣上一顶「水」的帽子。 各大顶会面对大模型带来的冲击,都有一些应对手段,例如: ICLR 2026 出台了大语言模型使用政策 ,是 ICLR 历来最严格的新规定,以明确规范论文作者与审 稿人在研究过程和审稿过程中使用 LLM 的做法。 但这依然很难突破眼下的困境,因为顶会的投稿数实在太多,早已不堪重负。 为了尝试打破学术论文投稿数暴增 ...