机器之心
Search documents
PPO-Clip的「盲点」被补齐了?快手提出熵比裁剪方法,从局部约束到全局稳定的关键一跃
机器之心· 2025-12-16 10:22
本研究由快手科技语言大模型团队完成,核心作者苏振鹏,潘雷宇等。快手语言大模型团队聚焦在基础语言大模型研发、Agent RL 等前沿技术创新等方向,积累务实的探索 AGI 的能力边界,并不断推进 AI 领域新技术和新产品的发展。此前,该团队已 开源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在数学和代码的基准测试上达到了同参数级别 模型的 SOTA 效果。 在大语言模型的后训练阶段,强化学习已成为提升模型能力和对齐质量的核心范式。然而,在广泛采用的 off-policy 的训练范式 中,更新当前策略的数据由旧的行为策略生成,导致分布漂移的问题的发生,这通常会将策略推至信任域之外,使强化学习的 训练变得不稳定。 尽管 PPO 通过重要性采样的裁剪机制缓解了部分问题,但它仅能约束已采样动作的概率变化,忽略了未采样动作的全局分布漂 移。为了应对这些挑战,快手研究团队提出了一种创新的熵比裁剪方法。该方法从全新的视角切入,通过约束策略熵的相对变 化来稳定全局分布,为强化学习训练提供了更加可靠的控制手段。 研究背景 强化学习训练过程中长期面临 ...
无问芯穹首曝智能体服务平台,以基础设施加速企业级「智能体自由」
机器之心· 2025-12-16 10:22
01 驾驭智能体 + 规模化创造 = 未来组织的核心竞争力 传统经济中,企业的成长和创新能力往往线性、渐进式发展,依赖时间积累经验、技术和市场。而到了智能体时代,从创意原型的验证,到产品功能的搭建,再 到商业模式的最终成型, Agentic AI 正在加速企业创造力的 Scaling,使得 "从 Idea 到 Industry " 的链路被飞速压缩 。 机器之心发布 "我们相信,未来每个企业都会是 Agentic(智能代理化) 的。" 无问芯穹联合创始人、CEO 夏立雪表示:" 而当每个企业里都活跃着 10 个、100 个、乃至 1000 个 智能体,一个组织的创造能力将会被无限放大。即使是最微小的团队,也能释放出最强大的影响力 。 " 12 月 16 日,在 2025 INFINI DAY 无问芯穹智能体生态论坛上, 无问芯穹智能体服务平台正式发布 。作为无问芯穹面向智能体时代打造的战略级 AI 基础设施产 品,该平台致力于为企业提供从智能体定制优化、部署托管到商业化变现全链路的陪伴式落地服务,为每一个能改变世界的智能体,打造下一代生产力基座,加 速完成从创造力到生产力的进化。 而生产级的智能体落地和规模化 ...
英伟达成开源新王?Nemotron 3全新混合专家架构,推理效率升4倍
机器之心· 2025-12-16 08:55
机器之心编辑部 英伟达的自研大模型,刚刚有了大版本的更新。 北京时间今天凌晨,英伟达发布了 Nemotron 3 系列开放模型,共三种规模,分别为 Nano、Super 和 Ultra : 英伟达认为,随着企业从单一模型聊天机器人转向协同工作的多智能体 AI 系统,开发者正面临通信开销高、上下文漂移以及推理成本居高不下等挑战。同时,能 够支撑复杂工作流自动化的模型,必须具备足够的透明性与可解释性,才能赢得开发者与企业的信任。 其中 Nemotron 3 Nano 已在 Hugging Face 上线,是目前计算成本效率最高的模型,针对软件调试、内容摘要、AI 助手工作流和信息检索等任务进行了优化,可显 著降低推理成本。该模型采用独特的混合 MoE 架构,在效率与可扩展性方面实现了显著提升。 Nemotron 3 Nano 的总参数规模为 316 亿,激活参数规模为 32 亿(包含嵌入层为 36 亿)。在每次前向推理过程中,其激活的参数数量不到上代 Nemotron 2 Nano 的一半,却实现了更高的准确率。 与 Nemotron 2 Nano 相比,Nemotron 3 Nano 实现了最高 4 倍的 To ...
所有大模型,都学物理学:北大物理系一篇研究,震撼了AI圈
机器之心· 2025-12-16 08:55
编辑|+0、泽南、Panda LLM 智能体很赞,正在成为一种解决复杂难题的强大范式。 论文标题:Detailed balance in large language model-driven agents 论文地址:https://arxiv.org/pdf/2512.10047 简单来说,他们通过实验测量了 LLM 生成状态之间的转移概率。基于此,他们在统计上发现了 LLM 生成转移中的细致平衡 (detailed balance) 现象。 这表明: LLM 的生成可能不是通过一般性地学习规则集和策略来实现的,而是通过隐式地学习一类潜在的势函数 (potential functions),这些势函数可能超越了不 同的 LLM 架构和提示词模板。 不过,这种成功目前更多还停留在「经验主义」的工程实践层面 —— 我们知道它好用,但往往不知道它在宏观上为何如此运作。那么,我们是否能找到一个理论 框架,像物理学描述自然界那样,去理解和统一智能体的宏观动力学(macroscopic dynamics)? 为了解开这个黑盒,近日,北京大学物理学院、高能物理研究中心以及北京计算科学研究中心联合发力,跨界借用了物理学中经 ...
临床PK完胜ChatGPT-5!国内团队造出首个OCT影像AI系统
机器之心· 2025-12-16 04:11
机器之心发布 通用大模型(LLM)的狂飙突进,终于在医疗垂直领域的「最后一公里」撞上了硬墙。虽然 ChatGPT 在 USMLE(美国执业医师资格考试)中表现优异,但在面 对需要「火眼金睛」和「毫厘必争」的心脏手术台上,通用大模型的表现究竟如何? 近日,一项由空军军医大学唐都医院李妍教授团队牵头,与深圳清华大学研究院朱锐团队联合完成的 COMPARE 研究在 arXivs 上发表预印版。研究揭示:在经皮 冠状动脉介入治疗(PCI)的决策制定中, CA-GPT垂直领域 CA-GPT 系统 (一项基于 OCT 影像的 AI 系统), 在关键决策指标上显著优于 Open AI 的通用大模 型 ChatGPT-5 。该研究是基于中科微光医疗(Vivolight Medtech)OCT 系统搭建的 RAG 增强型 AI-OCT 整合决策支持模型。 这不仅是一次算法的胜利,某种程度上可以称得上是中国腔内影像领域的「DeepSeek 时刻」。这套 CA-GPT 系统有望重新定义心脏介入手术的智能化标准。 01. 巅峰对决 通用大模型在专业战场「水土不服」 据《2023 年全球心血管疾病负担报告》统计,每年因心血管疾病死亡的 ...
56倍加速生成式策略:西交大提出EfficientFlow,迈向高效具身智能
机器之心· 2025-12-16 04:11
本文共同第一作者为西安交通大学硕士生常建磊和博士生梅若风。柯炜为西安交通大学副教授。论文通讯作者为西安交通大学教授许翔宇,其研究方向涵盖三维 视觉、生成式 AI 与具身智能(个人主页:https://xuxy09.github.io/)。 生成式模型正在成为机器人和具身智能领域的重要范式,它能够从高维视觉观测中直接生成复杂、灵活的动作策略,在操作、抓取等任务中表现亮眼。但在真实 系统中,这类方法仍面临两大「硬伤」: 一是训练极度依赖大规模演示数据,二是推理阶段需要大量迭代,动作生成太慢,难以实时控制。 针对这一核心瓶颈,西安交通大学研究团队提出了全新的生成式策略学习方法 EfficientFlow 。该方法通过将 等变建模与高效流匹配(Flow Matching)深度融合 , 在显著提升数据效率的同时,大幅压缩推理所需的迭代步数 ,在多个机器人操作基准上实现了 SOTA 的性能,并将推理速度提升一个数量级以上。 相关论文《EfficientFlow: Efficient Equivariant Flow Policy Learning for Embodied AI》 已被 AAAI 2026 接收,代码已开 ...
阿里妈妈发布MUSE:用多模态搞定十万级超长行为序列,并开源Taobao-MM数据集
机器之心· 2025-12-16 04:11
机器之心发布 如果把用户在互联网上留下的每一个足迹都看作一段记忆,那么现在的推荐系统大多患有 "短期健忘症"。 受限于算力和存储,那些沉睡在数年前的点击、收藏与购买,往往被粗暴地截断或遗忘。即便被召回,它们在模型眼中也只是一串串冰冷且互不相识的 ID 代码。 但事实上,真正有趣的东西也往往藏在这些被遗忘的 "长尾" 之中。如何唤醒这 10 万级 的沉睡数据,并读懂它们背后的视觉与语义关联? 阿里妈妈与武汉大学团队给出的答案是 MUSE(MUltimodal SEarch-based framework) 。这不仅仅是一个新的 CTR 模型,更像是一个给推荐系统安装的 "多模 态海马体"。它利用图像与文本的语义力量,重构了用户跨越时空的兴趣图谱。 甚至,他们还开源了构建这个 "数字大脑" 的基石: Taobao-MM 数据集 。 对于推荐系统长久以来技术演进路线,这一突破可谓是一次深刻的反思与重构! 论文标题:MUSE: A Simple Yet Effective Multimodal Search-Based Framework for Lifelong User Interest Modeling 在搜推 ...
让扩散模型「可解释」不再降质,开启图片编辑新思路
机器之心· 2025-12-16 02:31
然而,与 LLM 可解释性研究的蓬勃发展相对,扩散模型内部的语义结构、时间规律以及因果路径仍然像被深深封住的「黑箱」。研究者可以凭直觉优化架 构,但外界无法真正理解扩散模型在生成过程中的「思考方式」。 更棘手的是,已有的可解释性尝试往往伴随着明显的性能下降:特征分解、激活分析、插值扰动……无论采用哪种方法,只要试图将扩散模型拆开来看,生 成质量就会显著劣化。这让「可解释扩散模型」在很长一段时间里被视为不切实际的小众方向。 在这样的背景下,香港中文大学 MMLab 与上海人工智能实验室的研究团队提出了一个不同的观点: 扩散模型作为当今视觉世界最重要的生成器,其内部 机制不应永远处于不可见状态;可解释性也不应该以牺牲生成质量为代价。 过去三年,扩散模型席卷图像生成领域。以 DiT (Diffusion Transformer) 为代表的新一代架构不断刷新图像质量的极限,让模型愈发接近真实世界的视觉 规律。 基于这一理念,他们提出了被 AAAI 2026 接收的 TIDE (Temporal-Aware Sparse Autoencoders) —— 首个真正意义上面向扩散 Transformer 的时序 稀疏自编 ...
告别「手搓Prompt」,前美团高管创业,要让物理世界直接成为AI提示词
机器之心· 2025-12-16 02:31
2025 年,AI 硬件赛道喧嚣一片。从形态各异的 AI 眼镜,到 OpenAI 传闻中的无屏设备,无数玩家正试图摆脱智能手机的束缚。 其底层逻辑清晰可见,今天的 AI 不缺智商,缺乏的是「在场感」 。 被困在对话框里的大模型如同「缸中之脑」。当你需要复盘会议或分析孩子情绪时,却不得不将鲜活场景压缩成干巴巴的文字描述,这种依赖「手动 Prompt」的 交互不仅低效,更是反人性的。我们被迫充当了 AI 的「人肉传感器」,而大模型因缺乏 Context(上下文语境),始终处于对物理数据的极度饥渴中。 「在物理世界中,人类本质上是被动的生物。我们期望让 AI 变得主动。」Looki 创始人兼 CEO 孙洋一语道破 。 正是带着这样的思考,一支自带自动驾驶基因的团队,试图将那套解析道路环境的「从感知到决策」逻辑复用到日常生活中,填补大模型对于物理世界的认知 「盲区」。他们打造的 Looki L1,在北美市场积累首批口碑后,于今天正式面向国内发布。 这款 AI 原生多模态可穿戴设备,旨在将实时视听信号转化为模型上下文,让物理世界本身,成为驱动 AI 思考与服务你的最高效 Prompt。 一、藏在 30g 机身里的「智能 ...
AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了
机器之心· 2025-12-15 10:00
为此, 合肥工业大学研究团队携手清华大学研究团队推出了首个面向视频大语言模型的综合可信度评测基准 Trust-videoLLMs。 该工作以 Oral 形式被 AAAI 2026 接收。Trust-videoLLMs 对 5 款商业模型和 18 款开源模型进行了全面评估。评测涵盖真实性、鲁棒性、安全性、公平性、隐私五 大维度,包含 30 项精心设计的任务。同时,团队还提供了一个专门用于研究视频大语言模型安全可信能力的工具箱,该工具箱采用统一接口和模块化设计,便于 模型交互和任务执行。 近年来,视频大语言模型在理解动态视觉信息方面展现出强大能力,成为处理真实世界多模态数据的重要基础模型。然而,它们在真实性、安全性、公平性、鲁 棒性和隐私保护等方面仍面临严峻挑战。 论文地址:https://arxiv.org/pdf/2506.12336 项目主页:https://github.com/wangyouze/Trust-videoLLMs 评测什么? Trust-videoLLMs 构建了一个系统化、多层次、可扩展的评测体系,包含五个核心维度: 真实性 (Truthfulness): 视频描述、时序理解、事件推理、 ...