Workflow
泛化
icon
Search documents
最新发现!每参数3.6比特,语言模型最多能记住这么多
机器之心· 2025-06-04 04:41
GPT 系列模型的记忆容量约为每个参数 3.6 比特。 语言模型到底能记住多少信息?Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示: 每个 参数大 约 3.6 比特 。一旦达到这个极限,它们就会停止记忆 并开始泛化。 长期以来,记忆与泛化之间的模糊性一直困扰着对模型能力和风险的评估,即区分其输出究竟源于对训练数据的「记忆」 (对其训练数据分布的编码程度) ,还 是对潜在模式的「泛化」理解 (将理解扩展到未见过的新输入)。 这种不确定性阻碍了在模型训练、安全、可靠性和关键应用部署方面的针对性改进。 机器之心报道 编辑:+0、张倩 这就好比我们想知道一个学生考试得了高分,是因为他真的理解了知识点(泛化),能够举一反三,还是仅仅因为他把教科书上的例题和答案都背下来了(记 忆)。 基于此,研究团队提出了一种新方法,用于估计一个模型对某个数据点的「了解」程度,并利用该方法来衡量现代语言模型的容量。 研究团队从形式上将记忆分为两个组成部分: 通过消除泛化部分,可以计算出给定模型的总记忆量,从而估计出模型容量:测量结果估计, GPT 系列模型的容量约为每个参数 3.6 比特 。 研究团队训练了数百个参数量 ...
美暂停向中国出售发动机技术,外交部:美有关做法泛化国家安全概念,对中国进行恶意封锁和打压。
news flash· 2025-05-30 07:42
美暂停向中国出售发动机技术,外交部:美有关做法泛化国家安全概念,对中国进行恶意封锁和打压。 (北京青年报) ...
机器人“孝子”解养老困局:技术路径已明,非人形态先行
Core Viewpoint - The article discusses the potential of humanoid robots in addressing the growing elderly care needs in the context of an aging population, highlighting advancements in technology and the evolving landscape of the robotics industry [1][3][20]. Industry Overview - The aging population in China is rapidly increasing, with projections indicating that by the end of 2024, there will be 310 million people aged 60 and above, accounting for 22% of the total population [3][20]. - The concept of "elderly care robots" encompasses various forms of robots, including exoskeletons and humanoid robots, with a particular focus on humanoid robots in popular perception [4][21]. Technological Advancements - Recent breakthroughs in robotics include improvements in bionic joints, motion control algorithms, and cognitive decision-making frameworks, which are essential for the development of humanoid robots [1][6]. - The introduction of international standards for elderly care robots aims to guide the design, manufacturing, testing, and certification processes, promoting healthy industry development [7][9]. Market Dynamics - The market for humanoid robots is expected to grow significantly, with estimates suggesting that by 2035, the global market could reach $38 billion, and in China, the market could expand to 500 billion yuan [20][24]. - The current pricing of humanoid robots ranges from approximately 99,000 yuan to 199,000 yuan, with expectations that prices will decrease as technology matures [14][17]. Future Outlook - Experts predict that humanoid robots capable of providing companionship and care for the elderly may enter households within the next three to ten years, although some believe it could take longer [18][21]. - The industry is witnessing a shift towards consumer markets, with companies exploring opportunities in home care and rehabilitation, indicating a potential for growth in the elderly care robotics sector [22][23].
软件所提出小批量数据采样策略
Jing Ji Guan Cha Wang· 2025-05-27 07:50
Core Insights - A research team from the Institute of Software, Chinese Academy of Sciences, proposed a small-batch data sampling strategy to eliminate the interference of unobservable variable semantics on representation learning, enhancing the out-of-distribution generalization ability of self-supervised learning models [1][2] Group 1: Research Findings - The out-of-distribution generalization ability refers to the model's performance on test data that differs from the training data distribution, which is crucial for maintaining effectiveness in unseen data scenarios [1] - The study identified that self-supervised learning models are affected by unobservable variable semantics during training, which weakens their out-of-distribution generalization ability [1] Group 2: Methodology - The proposed strategy utilizes causal effect estimation techniques to eliminate the confounding effects of unobservable variable semantics [1] - By learning a latent variable model, the strategy estimates the posterior probability distribution of unobservable semantic variables given "anchor" samples, termed as balance scores [1] - Samples with similar or close balance scores are grouped into the same small-batch dataset, ensuring that unobservable semantic variables are conditionally independent of the "anchor" samples within each batch [1] Group 3: Experimental Results - Extensive experiments on benchmark datasets showed that the sampling strategy improved the performance of mainstream self-supervised learning methods by at least 2% across various evaluation tasks [2] - In classification tasks on ImageNet100 and ImageNet, both Top-1 and Top-5 accuracy surpassed the state-of-the-art self-supervised methods [2] - In semi-supervised classification tasks, Top-1 and Top-5 accuracy increased by over 3% and 2%, respectively [2] - The strategy also provided stable gains in average precision for object detection and instance segmentation transfer learning tasks [2] - Performance improvements exceeded 5% for few-shot transfer learning tasks on datasets like Omniglot, miniImageNet, and CIFARFS [2] - The research findings were accepted by the top-tier academic conference in artificial intelligence, International Conference on Machine Learning (ICML-25) [2]
机器人数据闭环深度:机器人VLA核心算法专家
2025-05-26 15:17
机器人数据闭环深度:机器人 VLA 核心算法专家 20250526 摘要 大语言模型在物理智能体应用中面临几何信息描述不足的挑战,可通过 视频学习或绕过语言模型直接使用已训练好的 LM 部分来解决,提升 VLA 对空间信息的理解能力。 通过大量视频训练提升 VLA 对空间信息的理解能力是重要途径,但需解 决 2D 视频还原 3D 空间信息的映射问题,以及数据筛选和清洗的巨大 工程量。 开源 VLA 框架存在纯 Transformer 和快慢系统两种技术路线,前者算 力要求高,后者存在信息传递瓶颈,未来可能收敛到单个 Transformer 结构。 当前机器人方向存在硬件领先于算法的问题,VLA 缺乏方法性和泛化性, 主要瓶颈在于缺乏强大的仿真模型和 3D 空间理解能力。 解决 World Model 的主要矛盾在于数据量问题,需通过视频从 next token prediction 迁移到 next frame prediction,并进行复杂的数据 筛选和清洗。 Q&A VLA 算法在巨轮智能领域的历史发展是怎样的? VLA 算法的发展可以追溯到两个方面的融合。首先,大模型的发展起源于大语 言模型(LM), ...
医疗影像大模型,还需“闯三关”
3 6 Ke· 2025-05-18 23:14
在众多应用场景中,因病理图像具有非常大的多样性,病理大模型也被认为是医疗模型"皇冠上的明 珠"。为破解病理诊断准确性与效率难题,透彻未来研发了全球首个临床应用级病理大模型产品——透 彻洞察,基于亿级参数量和海量高精度病理数据训练,为病理医生提供精准稳健、全面快速的病理临床 诊断辅助。 2025年以来,Deepseek通过开放生态加速了算法研发与临床场景的深度融合。医疗大模型摒弃了"技术 至上"的思维,逐渐进入实用主义阶段。作为AI应用最为深入的领域之一,医学影像在大模型时代迎来 了更快速的发展。 如何增强AI模型泛化能力?大模型幻觉问题如何解决?大模型多模态数据整合的难点及解决方案有哪 些?动脉网与数坤科技首席技术官郑超、透彻未来联创兼首席技术官王书浩这两位深耕医疗AI多年的 专家们聊了聊,供行业参考。 本文主要观点如下: 01 大模型已深入医生全工作流程 医学影像人工智能模型在参数规模未达当前水平时便展现出了广阔的应用前景,现已在影像科医生的工 作全流程中实现了常态化应用。而在辅助诊断专用模型之后,数坤科技在4月发布的"数坤坤多模态医疗 健康大模型",便实现了让AI从辅助工具进化为诊疗生态的核心驱动力。 数 ...
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
机器之心· 2025-05-16 04:39
随着大模型(LLMs)的快速发展和可集成工具的爆炸增长,AI 智能助手在日常生活中可提供的便利越来越多,不仅包括传统任务型对话中订机票、查询天气等助 理能力,还增加了无以计数的 AI 能力,如 AI 画图、解数学题、游戏攻略等。而 AI 智能助手准确理解用户的意图(Intent Detection)并路由至下游工具链是实现 这些功能的第一步,其重要性不言而喻。 然而,工具的快速迭代、多样化、工具之间关系的复杂化也给意图识别带来新的挑战,即模型在应对新意图时普遍存在性能衰减问题。如何在开源的轻量级 LLMs 上训练泛化性更好、鲁棒性更强的意图识别模型,使得模型能够更准确理解未见场景的意图至关重要。 近日,腾讯 PCG 社交线的研究团队针对这一问题,采用强化学习(RL)训练方法,通过分组相对策略优化(Group Relative Policy Optimization, GRPO)算法,结 合基于奖励的课程采样策略(Reward-based Curriculum Sampling, RCS),将其创新性地应用在意图识别任务上,显著提升模型在未知意图上的泛化能力,攻克了 工具爆炸引发的意图泛化难题,推动大模型在意图 ...
信“心”心理问答|困在“自私”与“委屈”之间的你,如何在自我与他人间找到平衡
Jing Ji Guan Cha Bao· 2025-05-15 00:33
我以前单纯地认为,生活应当契合内心的渴望。比如周末想宅家阅读,享受独处时光;或是在闲暇时, 独自去公园散步,放空大脑。但现实中,我的每一次选择感觉都没那么简单。直接表达需求时,会担心 伤害他人;优先考虑他人时,又觉得自我被压抑。这种矛盾感,就像卡在喉咙里的刺,咽不下也吐不 出。 (原标题:信"心"心理问答|困在"自私"与"委屈"之间的你,如何在自我与他人间找到平衡) 读者来信: 我的烦恼是常在 " 满足自我需求 " 和 " 照顾他人感受 " 间反复内耗。比如有次周末加班,朋友央求让我帮 忙做 PPT ,说有急用,我咬牙暂停工作赶过去,最后两边都没做好;朋友约我聚会,我因为那天太累拒 绝了,却发现对方跟我从那之后就疏远了,我的愧疚感随之而来。这些场景不断上演,让我陷入 " 自 私 " 与 " 委屈 " 的双重折磨。 观察身边的人,也让我困惑。朋友小李总把同事需求放在首位,对方被批评了,她牺牲自己休息时间陪 伴同事,还主动分担她的工作,自己累到胃疼,却只得到一句 " 谢谢 " ;妈妈在家庭聚会时,永远忙着 照顾所有人,热菜凉了也顾不上吃一口,笑着说 " 你们开心就好 " 。他们的付出让我感动,可这样委屈 自己真的 ...
只有通过海量测试才能抓住泛化性的本质吗?
机器之心· 2025-05-10 03:42
本文第一作者为上海交通大学博士生程磊,指导老师为上海交通大学张拳石教授。 当以端到端黑盒训练为代表的深度学习深陷低效 Scaling Law 而无法自拔时,我们是否可以回到起点重看模型表征本身——究竟什么才是一个人工智能模 型的「表征质量」或者「泛化性」?我们真的只有通过海量的测试数据才能抓住泛化性的本质吗?或者说,能否在数学上找到一个定理,直接从表征逻辑复 杂度本身就给出一个对模型泛化性的先验的判断呢? 论文地址: https://arxiv.org/abs/2502.10162 本文就上述问题给出了初步的探索,从神经网络内在精细交互表征复杂度的角度来探索「可泛化交互表征」和「不可泛化交互表征」各自所独有的分布。 一、大模型时代呼唤更高效的泛化性分析策略——中层表征逻辑的交流与对齐 尽管深度学习基础理论近年来取得了长足的发展,但一些根本性问题仍未得到有效解决。典型地,对神经网络泛化性的研究依然停留在一个相对较浅的层面 ——主要在高维特征空间分析解释神经网络的泛化性(例如通过损失函数景观平滑度来判断泛化性)。 因此,我们始终无法对神经网络泛化性给出一个「究竟」的解释——究竟怎样的确切的表征才叫高泛化性的表征。 ...
ICML 2025 | 清华、上海AI Lab等提出傅里叶位置编码,多项任务远超RoPE
机器之心· 2025-05-08 05:51
长文本能力对语言模型(LM,Language Model)尤为重要,试想,如果 LM 可以处理无限长度的输入文本,我们可以预先把所有参考资料都喂给 LM,或许 LM 在应对人类的提问时就会变得无所不能。 研究亮点 发现 —— 频谱损坏限制周期延拓 作者们通过观察 RoPE 的公式可以发现,它为 Hidden States 的每一维都指定了单一的频率,并假设这一维度的语义信息按照这个波长影响其他位置的语义。所 以,RoPE 周期延拓性的起效前提是 "Hidden States 的每一维只存在单一频率的语义"。如果每一维明明存在不同频率的语义,却仍然按照单一频率的波长来估计 这部分语义的传递规律,RoPE 所带来的周期延拓将产生混乱,进而无法实现长文本泛化。 但是,LM 通常只在较短窗长下进行训练,可能产生过拟合,只学习到指定范围内的位置关系,但是无法理解没学习过的位置关系。为了缓解这个问题,当下最 流行的便是引入具有周期性的旋转位置编码(Rotary Position Embedding,RoPE)。由于周期性编码每间隔一定距离就会出现数值重复,所以 LM 可以使用在少 数几个周期内学习到的经验泛化到更多的周期 ...