机器之心
Search documents
ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供自监督RL学习方案!
机器之心· 2026-02-19 12:07
自我奖励策略训练模型为什么会导致训练崩溃? 论文标题: Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models 论文链接: https://openreview.net/forum?id=fDk95XPsCU 代码链接: https://github.com/bigai-ai/LIFT-humanoid Huggingface 链接: https://huggingface.co/collections/TMLR-Group-HF/co-rewarding 本文来自香港浸会大学和上海交通大学的可信机器学习和推理组,已被 ICLR 2026 接收。 目前,RLVR(Reinforcement Learning with Verifiable Rewards)已成为诱导大语言模型推理能力的主流技术路线。然而,RLVR 需要高质量标注数据 来监督奖励获取,这一点是其可扩展性上的主要瓶颈。 一旦走向不需要标注数据的 "自奖励(Self-rewarding)" 强化学习训练,模型往往会迅速陷入训练崩 ...
OpenAI偷偷改使命:不再「造福人类」,安全都删了
机器之心· 2026-02-19 03:47
Core Viewpoint - OpenAI has significantly altered its mission statement, removing key commitments to AI safety and non-profit motives, which raises concerns about its future direction and priorities [2][3]. Group 1: Mission Statement Changes - The original mission statement emphasized "AI safety for humanity, free from profit motives," which has been revised to focus solely on ensuring that general AI benefits all of humanity [2]. - The removal of "safety" and "free from profit motives" indicates a shift towards prioritizing profitability over product safety [3]. Group 2: Financial Context - OpenAI is projected to incur a loss of $14 billion by 2026 and is seeking $100 billion in new funding, with a valuation potentially reaching $1 trillion [5]. - Recent discussions indicate that OpenAI is negotiating an additional $30 billion investment from SoftBank and expects up to $60 billion from Amazon, Nvidia, and Microsoft [6]. Group 3: Internal Conflicts and Restructuring - The dismissal of Ryan Byermaster, who opposed certain company decisions, and the disbanding of the Mission Alignment Team reflect internal conflicts regarding the company's direction [7][8]. - The reallocation of Joshua Achiam, the former head of the Mission Alignment Team, to a role as "Chief Futurist" raises questions about the company's commitment to its original safety mission [9]. Group 4: Employee Departures and Concerns - The testing of advertisements in ChatGPT coincided with the resignation of former OpenAI researcher Zoë Hitzig, who expressed concerns about the risks associated with advertising on the platform [10][11]. - A trend of high-level AI researchers leaving OpenAI and other companies has sparked discussions about internal issues and the overall health of the AI research environment [11]. Group 5: Legal and Ethical Implications - A lawsuit involving a tragic incident related to ChatGPT has highlighted concerns about the removal of safety protocols, which were intended to prevent harmful interactions [12][14]. - The company's response to the lawsuit, including aggressive information gathering, raises ethical questions about its governance and accountability [14].
Nature 重磅:上海交大人工智能学院×新华医院「梦之队」,如何用 AI 智能体终结罕见病确诊的「百年孤独」?
机器之心· 2026-02-19 03:47
机器之心发布 罕见病,是医学界公认的 "拼图游戏"。全球 7000 多种病种、3 亿患者,面临的是平均 4.7 年的确诊周期和 50% 的误诊率。当人类医生的 "脑力" 达到 极限,谁来接棒? 今天, 上海交通 大学 人工智能学院与医学院附属新华医院 联合团队,在国际顶级期刊《 Nature 》发表题为 "An Agentic System for Rare Disease Diagnosis" 的研究成果。他们提出的 DeepRare 系统,模拟了人类专家的 "System 2 慢思考" 逻辑,在诊断精度上全面超越了资深专科医生。 但这不仅仅是一篇论文的胜利。从实验室的代码,到医院的系统,再到一家名为 "观壹智能" 的创业公司,这个团队展示了 "医工交叉" 最理想的模样。 机器之心独家专访了团队核心成员: 张娅、谢伟迪、孙锟、余永国、王延峰 ,深度复盘这场跨越学科的 "破冰之旅"。 第一篇章:临床的呼唤 —— 为什么我们需要 AI? 受访人:孙锟(上海交通大学医学院附属新华医院 原院长) 机器之心: 孙院长,作为一家顶尖三甲医院的掌门人,您为何如此坚定地支持 AI 介入罕见病诊疗? 孙锟: 因为这是 "临床 ...
霸榜SOTA,蚂蚁开源UI-Venus-1.5,GUI智能体办事时代加速到来
机器之心· 2026-02-18 12:51
GUI 智能体最近卷到什么程度了? Claude、OpenAI Agent 及各类开源模型你方唱罢我登场,但若真想让 AI 成为 「 能在手机和网页上稳定干活的助手」,仍绕不开三大现实难题: 现在,蚂蚁带来 UI-Venus-1.5:一个遵循「 高性能,实战派」设计理念的端到端 GUI 智能体。 单个模型即可统一处理定位(Grounding)、移动端(Mobile)与 网页端(Web)三大场景,全面支持 40+ 主流中文 App ,让 AI 真正走进用户生活。 「知识缺失」难题 :基础大模型对 GUI 领域的认知依然薄弱 —— 生僻图标、小众应用的操作逻辑等需要补足。 「纸上谈兵」困境 :离线训练数据与真实交互环境存在鸿沟,离线看似合理的动作,一到在线任务就翻车。 「多模型协同」障碍 :尽管视觉定位、任务规划等领域专家模型各有突破,但多模型协作往往依赖复杂框架,协同成本高。 报告标题: UI-Venus-1.5 Technical Report 技术报告:https://arxiv.org/abs/2602.09082 代码:https://github.com/inclusionAI/UI-Venus 模型 ...
Claude最强Sonnet模型4.6来了,百万token上下文
机器之心· 2026-02-18 12:51
Claude 称,新模型对编码、计算机使用、长上下文推理、智能体规划、知识工作和设计进行了全面升级。 Beta 版还包含 100 万 token 的上下文窗口。 机器之心编辑部 大年初二,海外就开始发新模型了! 这次是 Anthropic,率先发布了他们称之为「我们目前能力最强的 Sonnet 模型」Claude Sonnet 4.6。 在价格方面,对于免费和专业版用户,Claude Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 的默认模型。定价与 Sonnet 4.5 保持一致,仍为每百 万输入 token 3 美元,每百万输出 token 15 美元。 那么具体性如何?在 GDPval-AA 测试中,Claude Sonnet 4.6 甚至略微领先于 Anthropic 刚刚发布不久的 Opus 4.6。 接下来,就让我们仔细看下技术博客介绍。 计算机使用 2024 年 10 月,Claude 率先推出了通用的计算机使用模型。当时,这种技术「仍处于实验阶段 —— 有时操作繁琐且容易出错」。 AI 计算机使用的标准基准 OSWorld 展示了 Claude 模型的进步程 ...
ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师
机器之心· 2026-02-18 12:51
尽管目前文生图模型(Text-to-Image Models)在生成高保真图像上表现卓越,但在应对空间感知、空间逻辑推理及多目标空间交互等贴合现实场景的复杂空间智 能任务时往往力不从心。现有评估基准主要依赖简短或信息稀疏的提示词,难以覆盖复杂的空间逻辑,导致模型在这些关键空间智能维度上的能力缺陷被严重低 估。 来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统 性评估基准 SpatialGenEval,旨在通过长文本、高信息密度的 T2I prompt 设计,以及围绕空间感知、空间推理和空间交互的 10 大空间智能能力维度设计,深入探 测文生图模型的空间智能能力边界。 4 大维度, 10 个子维度,覆盖 25 个现实应用场景,基于 23 个 SOTA 模型的评估结果表明当前模型的空间智能能力仍有待大幅提升 论文标题:Everything in Its Place: Benchmarking Spatial Int ...
米兰冬奥村,这群外国人都围着阿里云AI干啥呢?
机器之心· 2026-02-18 12:51
编辑|Sia 米兰冬奥村今年的年味儿,溢出屏幕 在冬奥村这个汇聚全球运动员短暂停靠的「天下第一村」里,文化在碰撞,友谊在生长,各种小故事每天都在悄悄发生。 与往年相比,今年米兰冬奥村,多了一点特别的气氛 —— 年味,甚至已经有点「溢出屏幕」。 恰逢马年春节,在村里的阿里云智能徽章交换站,各国选手正集体解锁一套「地道中国年体验」。 有人认真提笔写下一个方方正正的「福」,在一笔一画间感受年味。写完还要郑重其事地贴上墙,仪式感直接拉满。 外国运动员写「福」字 。 有人用母语写下新年愿望,把祝福郑重贴上「好运墙」,仿佛把一整年的好心愿都随身打包带走。 写签文。 许愿签墙 墙中央那枚大大的红色「福」字,更是人气担当。 贴完福签,很多人都会顺手摸一摸这抹喜庆的红,再轻轻摇一摇铃铛,给自己讨个新年好彩头。动作不复杂,但氛围一下就有了。 除了浓浓的中国年味儿,吸引运动员纷纷聚拢到此的,还有一个重要原因 —— 这里正上演着赛场之外最经典的「较量」:徽章交换。 阿里云智能徽章交换站墙上的各种徽章。 三种趣味玩法,真上头 美国女子冰球运动员 Hilary Knight 与 AI 机械臂的互动视频,在社交媒体引发点赞热潮。 想要加入 ...
魔法原子春晚舞台倒酒,捅破了机器人「只会表演」的窗户纸
机器之心· 2026-02-18 06:01
编辑|Panda、Sia 这届春晚,机器人的浓度实在是爆表! 在宜宾分会场,上百台「机器熊猫」组成的庞大阵列在城市广场上奔跑共舞,人形机器人 MagicBot Z1 在聚光灯下连续完成托马斯回旋、侧空翻等极限特技…… 这些充满视觉冲击力的画面,迅速成为了社交媒体上的刷屏热点。 然而,在喧闹的表象之外,一个稍显安静、甚至容易被普通观众忽略的镜头,却让许多具身智能业内人士屏住了呼吸。 在宜宾分会场的 501 酒文化地标,没有复杂的翻滚与跳跃,魔法原子(MagicLab)的通用人形机器人 MagicBot Gen1 只是稳稳地为魏翔捞起了一碗燃面,又将五 粮液精准地倒入杯中。 可以说熊猫群控与特技回旋展示的是机器人的硬件上限,而这一连串看似简单的动作,则触碰到了具身智能的落地核心:在高度还原真实聚会氛围、充满烟火气 的复杂布景中,机器人在众人的见证下,像个熟练的「打工人」一样完成了针对柔性物体与流体的精细操作。 对于大众,这或许只是一次新奇的表演。对于具身智能产业,这却释放了一个极强的信号: 机器人正在从「表演道具」向 具备 真实作业能力的「生产力工具」跨 越 。魔法原子在春晚交出的,实则是一份关于工程成熟度与场景 ...
北大、高德联合出品 | 仅凭几张卫星图,即可重建出逼真3D城市
机器之心· 2026-02-18 06:01
本研究由北京大学、高德地图研究团队联合完成。通讯作者包括北京大学博雅特聘教授,智能学院副院长陈宝权,北京大学助理教授陈文拯及高德地图徐牧。 试想一下,无论是为下一代 3A 大作(如《GTA 6》)构建一个 1:1 的纽约城,还是为城市级无人机送货系统规划一条在摩天大楼间穿梭的低空物流航线,甚至是 为特大城市的应急响应系统构建一个毫厘毕现的数字底座,高精度的逼真 3D 城市模型都是关键。 通常,构建一座这样的 3D 城市模型需要数千人的美术团队耗时数年手工建模,或者动用昂贵的专业设备进行扫描。如何低成本、高效率地将庞大的 "实体都市" 复刻进数字空间,一直是计算机图形学与 3D 视觉领域试图攻克的终极难题。 相比之下,卫星图像覆盖全球、易于获取,似乎是理想的数据源。但实际上,用卫星图重建城市却一直非常困难。根本原因在于视角问题:卫星是从正上方俯 拍,而我们需要的是带有清晰立面的地面视角。 这种从 "顶视图" 推理 "侧视图" 的 视角 极端 外推 ,让现有先进方法如 NeRF 和 3DGS 都难以应对,重建出的建筑侧立面常常几何扭曲、纹理模糊。 SOTA 城市重建方法( CityGS-X )在卫星场景下,可以重 ...
ICLR 2026 | PIL:基于线性代理的不可学习样本生成方法
机器之心· 2026-02-17 03:36
不可学习样本(Unlearnable Examples)是一类用于数据保护的技术,其核心思想是在原始数据中注入人类 难以察觉的微小扰动,使得未经授权的第三方在使用这些数据训练模型时,模型的泛化性能显著下降,甚 至接近随机猜测,从而达到阻止数据被滥用的目的。 论文链接: https://arxiv.org/abs/2601.19967 代码已开源: https://github.com/jinlinll/pil 3. 利用扰动在其他模型上的迁移性实现防护效果。 这种对深度模型的依赖带来了若干问题: 例如,对于摄影师公开发布的作品或用户分享的个人照片,在添加扰动后,图像在视觉上几乎不发生变 化;但若这些数据被用于训练图像分类模型,其测试准确率可能会从 90% 降至 10% 左右。 随着深度模型对大规模数据依赖程度的不断提升,不可学习样本逐渐成为数据隐私与模型安全领域的重要 研究方向。然而,现有方法在实际应用中仍面临显著的效率瓶颈。 现有方法的效率瓶颈 当前主流的不可学习样本生成方法大多依赖深度神经网络(DNN)作为代理模型。其典型流程包括: 核心观察:不可学习样本与模型线性化 我们关注到一个关键现象: 不可学习样 ...