泛化

Search documents
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
机器之心· 2025-06-24 06:46
第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。 Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。 第二作者马崟淞是约翰斯・霍普金斯大学博士生。 图 1: 我们发现,只在例如贪吃蛇这种游戏上进行强化学习训练,模型就能涌现出领域外的泛化能力,在数学、多学科等多个任务上提高性能。 第三作者兰石懿是英伟达 Research Scientist。 最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。 此前已有研究发现,即使不提供标准答案,仅用数学问题进行强化学习也能提高模型性能,这让人们开始重新思考强化学习的训练方式。而来自莱斯大学、约翰 斯・霍普金斯大学和英伟达的研究团队更进一步:他们让多模态大语言模型 (MLLM) 玩贪吃蛇等简单游戏,无需任何数学或多学科训练数据,就显著提升了模型 的多模态推理能力。研究团队提出了 ViGaL (Visual Game Learning) 方法,在多个 ...
星海图高继扬:具身智能下半场,应用为王
Founder Park· 2025-06-23 11:44
「2026 年将是具身智能的下半场,下半场的核心是应用。应用的供需两侧都在走向成熟。」 在业界普遍认为具身智能行业还处于「技术卡点」阶段的时候,星海图 CEO 高继扬给出了具身智能「下半场」的一些判断。 「过去两年基本上是全民探索具身智能可用场景的阶段。大大小小的企业,所有潜在的用人单位,都在思考如何用具身智能来优化自己的工作流程。许多 应用场景正逐渐变得清晰。同时,整个市场的预期也回归到了一个比较理性的状态。」 同时,对于追求「通用人形机器人」的「通用」,高继扬也给出了一些不一样的看法。高继扬认为,从商业和产品价值的角度来看,当前阶段具身智能最 有价值的是实现对象泛化和动作泛化。而实现本体泛化在商业上的重要性没那么高。 以下是现场分享实录,经 Founder Park 整理后发布。 超 7000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 具身智能进展缓慢,背后的根本原因在于具身智能所需要的高质量数据是缺失的。而数据缺失,是因为缺少高质量、合适的本体。 具身智能,首先要有一个「正确的本体」,一个标准的本体。 把数据采集当作一项生产活动来看待。 ...
告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025
量子位· 2025-06-18 04:58
VLOG Lab 投稿 量子位 | 公众号 QbitAI 还在靠"开盲盒"选择大模型? 来自弗吉尼亚理工大学的研究人员推出了个选型框架 LensLLM —— 大幅提升选型效果的同时,成本却降低近90%。 众所周知,在大模型如雨后春笋般爆发的时代,选型成了AI工程师和研究员最大的痛点之一: 首度揭示:LLM微调中的"相变"动力学 近几年,大语言模型(LLM)从学术走向产业,从GPT到LLaMA,再到Mistral、DeepSeek,光是名字就让人眼花缭乱。 但选错模型不仅会浪费GPU资源,更可能拖慢产品迭代速度,甚至导致项目失败。 现有方法依赖经验、调参和"玄学",在成本和效果之间很难找到平衡。 而LensLLM正是在这个背景下诞生,其目标是 终结LLM选型"靠感觉"的时代 。 展开来说,LensLLM的理论基础来自一项 全新的PAC-Bayes泛化界限推导 ,首次从数学上揭示了LLM在不同数据规模下微调表现的 非线性 变化规律 ,具体表现为: 模型多如牛毛,怎么选才不会"踩坑"? 而使用LensLLM框架,不仅可以 预测微调后的性能走势 ,还通过全新理论解释了大模型微调中一直难以理解的"玄学现象"。 按照团队 ...
还不知道发什么方向论文?别人已经投稿CCF-A了......
具身智能之心· 2025-06-18 03:03
辅导老师介绍 老师均在CVPR、ICCV、ECCV、ICLR、RSS、ICML、ICRA等顶级会议上发表论文,有较丰富的 指导经验。 学员要求 自带一份简历,学校背景:国内TOP100高校,国外QS200以内; 具身智能之心论文辅导正式推出啦!去年的成果还算不错,几个同学中了CVPR和ICRA等会议, 今年和老师们沟通过后,准备继续辅导几名同学冲下顶会,感兴趣的同学可以咨询,辅导方向如 下。 主要方向 更多咨询 多模态大模型,VLA、机器人导航、机器人抓取、具身泛化、具身合成数据、端到端具身智能 体、3DGS等方向; 详细内容欢迎添加微信:oooops-life,做进一步了解。 ...
迈向通用具身智能:具身智能的综述与发展路线
具身智能之心· 2025-06-17 12:53
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 具身AGI的定义 : 论文将具身AGI定义为能够以人类水平的熟练度完成多样化、开放式现实世界任务的具身AI系统,强调 其人类交互能力和任务执行能力。 通用具身智能路线 现状 : 现有的具身AI模型(如视觉-语言-动作模型,VLA)大多仅支持视觉和语言输入,并且输出仅限于动作 空间。 挑战 : 类人认知能力不足 论文提出了一个从L1到L5的五级路线图,用于衡量和指导具身AGI的发展,每个级别基于四个核心维度:模 态(Modalities)、类人认知能力(Humanoid Cognitive Abilities)、实时响应能力(Real-time Responsiveness)和泛化能力(Generalization Capability)。 | | | 作者: Yequan Wang , AixinSun 单位: 北京人工智能研究院, 南洋理 ...
外交部:民进党当局“跪美”、“媚美”只会害台、毁台
news flash· 2025-06-17 07:41
Core Viewpoint - The Chinese Ministry of Foreign Affairs criticizes the Democratic Progressive Party (DPP) for aligning with the U.S., stating that such actions will harm Taiwan and lead to its destruction [1] Group 1 - The DPP has placed Huawei and Semiconductor Manufacturing International Corporation (SMIC) on Taiwan's "entity list" under U.S. pressure [1] - The Chinese government opposes the politicization of technology and trade issues by the U.S., as well as the broadening of national security concepts [1] - The Ministry of Foreign Affairs emphasizes that the DPP's actions of "kneeling to the U.S." and "flattering the U.S." will only be detrimental to Taiwan [1]
游戏教父 John Carmack:LLM 不是游戏的未来
AI前线· 2025-06-16 07:37
作者丨 John Carmark 译者丨明知山 策划丨 Tina 快速背景介绍 Id Software Id Software 成立于 90 年代,作为创始人之一,我参与开发了《指挥官基恩》、《德军总部 3D》、《毁灭战士》和《雷神之锤》系列。我深感自豪的是,《雷神之锤》推动了 GPU 的发展 和普及,间接促成了现代人工智能世界的形成。DeepMind 的 DMLab 环境也是基于《雷神之锤 竞技场》的净化版本构建的。 Armadillo Aerospace 与此同时,我在 Armadillo Aerospace 工作了十年,致力于垂直起降(VTVL)火箭的研发。 Oculus 更近一些,我在 Oculus(后被 Meta 收购)为现代虚拟现实奠定了技术基础。 Keen Technologies 我还在 Meta 的时候,OpenAI 创始人试图向我伸出橄榄枝。我深感荣幸,但我并非 AI 领域的专 业人士。 我进行了大量的阅读,形成了一些关于当前局势的看法,并最终确定这就是我能够参与的最重要 的事情。 从系统工程转向研究工作对我来说是一个非常大的变化,但我很享受这个过程。 能与强化学习之父 Richard S ...
ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
机器之心· 2025-06-13 15:45
该工作第一作者为蚂蚁技术研究院副研究员胡翔,蚂蚁技术研究院高级研究员武威为通讯作者。 在大语言模型如火如荼的当下,长文本建模仍然是一个极具挑战的问题。纠其根源,一方面在于主流 LLMs 的架构 Transformers 中平方复杂度及随序列长度线性增 长的推理阶段显存开销;另一方面在于 full-attention 有限的外推能力,难以泛化到远超预训练阶段长度的输入。 而高效处理长上下文能力,除了简单的工业界降本增效的需求外,还涉及通用人工智能 (AGI) 的核心问题:具有永久记忆的智能体。如果将人类从出生开始接收 到的信息视作长上下文,人类拥有记忆无非是访问这些上下文。因此记忆可以看作是超长上下文访问能力,而拥有与用户所有对话记忆的智能体,很可能为大语 言模型公司构建数据护城河 (事实上,OpenAI 已经开放了类似能力)。 近日,蚂蚁的研究团队为这个问题带来了一个新思路。就像人类开卷考试只会挑和当前问题相关的关键页作为参考,语言模型也可以只关注与当前上下文相关的 过去片段。以此为出发点,他们提出一种 基于因果检索的注意力机制 GCA (Grouped Cross Attention),完全端到端地学习如何 ...
宇树被曝完成股改,还有最新款机器人即将发布
Xuan Gu Bao· 2025-06-08 23:20
5月29日,宇树科技向合作伙伴发布通知称,因公司发展需要,杭州宇树科技有限公司即日起名称变更 为杭州宇树科技股份有限公司。届时,原公司所有业务由"新公司名称"继续经营,原公司签订的所有合 同继续有效。该举动引发市场对其准备上市的猜测。在此之前,创始人王兴兴也曾于2025年4月透露"不 排除赴港上市可能"。 5月30日,宇树机器人在微信公众号发布机器人图片并配文"敬请期待",新款机器人拥有26个自由度 (6*2+2+5*2+2),售价低于10000美元。宇树已发布的G1款人形机器人拥有23个自由度,H1则拥有47 个自由度。 另外,根据东吴证券草根调研,宇树科技人形机器人有望在2025年实现千台级出货,产业化进程加快。 当前机器人已具备完成格斗、马拉松等任务的运控能力,但泛化性仍有限,未来商业化落地的关键在于 加速大模型演进,提升其多场景、多任务的适应与迁移能力。 公司方面,据上市公司互动平台表示, 据搜狐科技6月6日消息,最近,宇树科技更名引发市场关注。从多位知情人士处了解到,宇树科技的股 改已基本完成,仅剩一点扫尾工作,且上市前可能还有Pre-IPO轮融资。 华锐精密:公司与宇树科技的合作经历前期的送样测试 ...
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 10:28
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 近期arxiv最热门论文, wen&清华LeapLab 团队最新成果: 在强化学习训练大模型推理能力时, 仅仅20%的高熵token就能撑起整个训练效果 ,甚至比用全部token训练还要好。 团队用这个发现在Qwen3-32B上创造了新的SOTA记录:AIME'24上达到63.5分,AIME'25上达到56.7分, 这是600B参数以下直接从base模型训练的最高分。 最大响应长度从20k延长到29k,AIME'24的分数更是飙升到了68.1分。 经典的二八法则(或帕累托法则)指出,通常80%的结果由20%的关键因素驱动,但剩下80%也是不能轻易舍弃的。 但是在大模型强化学习这里,80%低熵token不仅可以舍弃,甚至还可能起副作用,所以这篇论文被命名为"超越二八法则"。 此 外,团队还从token熵的角度探究了RL对LLM的主要影响,并进一步讨论了RL与SFT的区别、LLM RL的特殊性与clip-higher相较于 entropy bonus的优势。 揭开Chain-of-Thought的熵分布密码 要理解这项研究,需要先从一个有趣的观察说起: 团队发 ...