Workflow
强化学习
icon
Search documents
同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
机器之心· 2025-06-17 03:22
机器之心报道 机器之心编辑部 同一天,国内大模型厂商扎堆发起了新模型。 AI「六小龙」中的 MiniMax 和月之暗面各自公布了开源新成果。 其中,MiniMax 启动了「MiniMax Week」,并在第一天开源了其最新的长上下文推理 LLM—— MiniMax-M1 。该模型支持 全球最长的上下文窗口,包括 100 万 tokens 输入、8 万 tokens 输出 。 不仅如此,MiniMax-M1 还实现了 开源模型中最强的智能体工具使用能力 。强化学习效率也惊人,仅仅需要 53.47 万美元即可完成训练。 目前,MiniMax-M1 已经集成到了 MiniMax Chat 中。 如此强大的 MiniMax-M1 有哪些亮点功能呢?首先,它支持 UI 组件聚焦(Spotlight) ,只需输入提示词,立即就可以构建一个具有基于画布的动画粒子背景的 HTML 页面。 其次,MiniMax-M1 支持 交互式应用程序 。比如要求它构建一个打字速度测试,很快就生成一个干净、实用的 Web 应用程序,可以实时跟踪 WPM(每分钟字 数)。不需要插件,也不需要设置。 此外,MiniMax-M1 的 可视化效果很 ...
性能比肩DeepSeek-R1,MiniMax仅花380万训出推理大模型性价比新王|开源
量子位· 2025-06-17 01:03
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 国产推理大模型又有重磅选手。 MiniMax开源 MiniMax-M1 ,迅速引起热议。 这个模型有多猛?直接上数据: MiniMax团队透露,只用了3周时间、512块H800 GPU就完成强化学习训练阶段,算力租用成本仅 53.47万美元 (约383.9万元)。 不仅如此,在多个基准测试上MiniMax-M1的表现可比或超越DeepSeek-R1、Qwen3等多个开源模型,在工具使用和部分软件工程等复杂任 务上甚至超越了OpenAI o3和Claude 4 Opus。 MiniMax-M1实战表现如何?官方给出了一句话生成迷宫小游戏的Demo。 创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫,并逐步可视化 A* 算法的求解过程。使用画布和动画,使其具有视觉吸引 力。 目前模型权重已可在HuggingFace下载,技术报告同步公开。 原生支持100万token的输入长度,是DeepSeek R1的约8倍。 同时支持8万输出token,超过Gemini 2.5 Pro的6.4万,成为 世界最长输出 。 生成10万token时,推理算力只需要DeepSe ...
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
机器之心· 2025-06-17 00:10
当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中,搜索智能体的强化学习训练并未展现 出预期的稳定优势。一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。 我们(UIUC & Amazon)提出的 s3(Search-Select-Serve) 是一种 训练效率极高、结构松耦合、生成效果导向的 RL 范式 。该方法使用名为 Gain Beyond RAG (GBR) 的奖励函数,衡量搜索器是否真的为生成带来了有效提升。实验表明,s3 在使用仅 2.4k 训练样本 的情况下,便在多个领域问答任务中超越了数据规模大百 倍的强基线(如 Search-R1、DeepRetrieval)。 论文标题:s3: You Don't Need That Much Data to Train a Search Agent via RL 研究动机 RAG 的发展轨迹:从静态检索到 Agentic 策略 b. Search-R1 :将检索与生成联合建模,以最终答案是否 Exa ...
AI将受困于人类数据
3 6 Ke· 2025-06-16 12:34
2025 年 6 月 6 日,第七届北京智源大会在北京正式开幕,强化学习奠基人、2025年图灵奖得主、加拿大计算机科学家Richard S. Sutton以"欢迎来到经验时 代"为题发表主旨演讲,称我们正处在人工智能史上从"人类数据时代"迈向"经验时代"的关键拐点。 Sutton指出,当今所有大型语言模型依赖互联网文本和人工标注等"二手经验"训练,但高质量人类数据已被快速消耗殆尽,新增语料的边际价值正急剧下 降;近期多家研究也观察到模型规模继续膨胀却收效递减的"规模壁垒"现象,以及大量科技公司开始转向合成数据。 在Sutton看来,要突破这一极限,智能体必须像婴儿学习玩具、足球运动员在赛场决策那样,通过与环境交互不断生成并利用第一手经验,而非单纯模仿 人类旧有文本。这一观点呼应了Alan Turing1947年就已提出的预言——"我们想要的是一台能够从经验中学习的机器"——为人工智能奠定了早期哲学基 础。Sutton与长期合作者Andrew Barto凭借强化学习框架将这一理念工程化,并因此荣膺2024/25年度图灵奖,强化学习也在AlphaGo、机器人控制等里程 碑项目中反复验证其可行性。 在他看来,让智能 ...
AI将受困于人类数据
腾讯研究院· 2025-06-16 09:26
晓静 腾讯科技《AI未来指北》特约作者 2025 年 6 月 6 日,第七届北京智源大会在北京正式开幕,强化学习奠基人、2025年图灵奖得主、加拿 大计算机科学家Richard S. Sutton以"欢迎来到经验时代"为题发表主旨演讲,称我们正处在人工智能史上 从"人类数据时代"迈向"经验时代"的关键拐点。 Sutton指出,当今所有大型语言模型依赖互联网文本和人工标注等"二手经验"训练,但高质量人类数据 已被快速消耗殆尽,新增语料的边际价值正急剧下降;近期多家研究也观察到模型规模继续膨胀却收效 递减的"规模壁垒"现象,以及大量科技公司开始转向合成数据。 以下为演讲全文: 当前大型模型已逼近"人类数据"边界,唯有让智能体通过与环境实时交互来生成可随能力指数级扩 张的原生数据,AI 才能迈入"经验时代" 。 真正的智能应像婴儿或运动员那样在感知-行动循环中凭第一人称经验自我学习 。 强化学习范例(如 AlphaGo、AlphaZero)已证明从模拟经验到现实经验的演进路径,未来智能体 将依靠自生奖励和世界模型实现持续自我提升 。 基于恐惧的"中心化控制"会扼杀创新,多主体维持差异化目标并通过去中心化合作实现双赢 ...
游戏教父 John Carmack:LLM 不是游戏的未来
AI前线· 2025-06-16 07:37
作者丨 John Carmark 译者丨明知山 策划丨 Tina 快速背景介绍 Id Software Id Software 成立于 90 年代,作为创始人之一,我参与开发了《指挥官基恩》、《德军总部 3D》、《毁灭战士》和《雷神之锤》系列。我深感自豪的是,《雷神之锤》推动了 GPU 的发展 和普及,间接促成了现代人工智能世界的形成。DeepMind 的 DMLab 环境也是基于《雷神之锤 竞技场》的净化版本构建的。 Armadillo Aerospace 与此同时,我在 Armadillo Aerospace 工作了十年,致力于垂直起降(VTVL)火箭的研发。 Oculus 更近一些,我在 Oculus(后被 Meta 收购)为现代虚拟现实奠定了技术基础。 Keen Technologies 我还在 Meta 的时候,OpenAI 创始人试图向我伸出橄榄枝。我深感荣幸,但我并非 AI 领域的专 业人士。 我进行了大量的阅读,形成了一些关于当前局势的看法,并最终确定这就是我能够参与的最重要 的事情。 从系统工程转向研究工作对我来说是一个非常大的变化,但我很享受这个过程。 能与强化学习之父 Richard S ...
4B Qwen3逆袭671B DeepSeek!字节DAPO微调方法这么猛的吗
量子位· 2025-06-16 06:59
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 4B 小模型极限在哪里? 最新模型 Jan-nano 引起热议,它 在智能体任务上超过671B的最新版DeepSeek-V3 0528 ,在SimpleQA基准上获得 80.7分 。 先来看一下它的实际表现,包括两个任务: 总结一下,Jan-nano的能力包括: 再来看一下官方评估结果,与它同台竞技的不是闭源方案就是DeepSeek-v3这样的671B大型MoE模型。 目前Jan-nano取得最高分80.7%,并且作者透露下一个版本的目标是85%。 对研究某公司目前的扩张情况,该公司的扩张正威胁着另一家公司的市场份额,并撰写一份可能影响金融公司尽职调查流程的MBA水 平报告。 汇总今日财经突发新闻,聚焦令人震惊的消息。 在正确的提示词下,可以进行深度研究 从搜索结果中有效地获取相关信息 针对MCP协议优化,可无缝集成各种MCP服务器调用工具 不过研究团队Menlo Research特别提醒大家,Jan-Nano只是在这一个指标上优于Deepseek-671B,并且在测试中使用了基于MCP的方法。 我们完全理解4B模型有其局限性,但看看它能走到多远总是很有趣 ...
周末,大消息不断!
证券时报· 2025-06-15 11:10
宏观•要闻 广州:优化房地产政策 全面取消限购、限售、限价并降低贷款首付比例和利率 广州近日发布《提振消费专项行动实施方案(征求意见稿)》,提出有序减少消费限制,包括优化房地产政策,全面取消限购、限售、限价,降低贷款首付比例和 利率,以满足住房消费需求。方案还提出大力发展体育消费,推动体育比赛进景区、进街区、进商圈,支持冰雪运动和赛马运动消费发展。 今年11月起 中国公民持有效澳大利亚签证可免签入境新西兰 新西兰政府官网发文指出,从2025年11月起,中国护照持有者如从澳大利亚入境,且持有有效澳大利亚旅游、工作、学生或家庭签证,将可免签进入新西兰,最长 停留3个月。 中东战局步入第三日 能源资产正沦为以伊冲突的下一个战场 以色列6月14日晚袭击伊朗能源设施,导致部分设施起火,影响伊朗国内能源供应。据以方称,这是其首次袭击伊朗能源基础设施,或许意味着能源资产正在成为 以伊冲突的下一个战场。在伊朗能源安全备受威胁之际,霍尔木兹海峡的安危成为大众关心的问题,对封锁的担忧情绪蔓延。 特朗普提交其任内首份公开财务披露报告:通过持有加密货币平台股份获得超5700万美元收益 当地时间6月13日晚,美国总统特朗普提交了其任内 ...
“AI教父”辛顿最新专访:没有什么人类的能力是AI不能复制的
创业邦· 2025-06-15 03:08
来源丨 腾讯科技(ID:qqtech) 被誉为"AI教父"的杰弗里·辛顿 于 近日接受了调查记者盖昂·埃斯皮纳的远程专访。 他称,AI正在以前所未有的速度演化: 变得更聪明、更少犯错,甚至具备了情感和意识。 他警告, AI不仅可能具备喜怒哀乐等情绪,还已经学会了欺骗。 辛顿大胆预测, AI完全失控的概率在10%到 20%之间,人类未来可能被AI所掌控。 辛顿因在机器学习和神经网络领域的开创性贡献,于2024年荣获诺贝尔物理学奖。他曾在谷歌担任 AI研究负责人长达十年 ,并 于2023年选择离开 。这样,他可以 更坦率地表达对AI潜在风险的深切 担忧。 过去那些只存在于反乌托邦科幻小说中的问题—— "AI会取代人类吗?"、"它会觉醒吗?"、"会反抗 人类吗?" ——如今正逐渐成为现实世界的核心议题,全球社会正在被迫直面这些重大挑战。 问: 当你说"AI更擅长推理"时,具体指的是什么? 辛顿: 过去,只要问题稍微复杂一点,AI就容易出错。但现在,AI在推理上的表现已经接近人类。虽 然人类和AI都会犯错,但AI犯错的概率正在迅速下降。 辛顿的言论再次发出警示: AI不仅仅是技术革命,更是深刻的伦理与社会变革。 未来 ...
心智×算法 如何“共舞”(瞰前沿·人工智能如何改变科研范式)
Ren Min Ri Bao· 2025-06-13 21:43
近年来,人工智能加速发展,不仅推动人类进入智能时代,也以前所未有的深度和广度影响科学研究的 思维方式和工作模式。数据显示,2019年—2023年,全球AI for Science(人工智能驱动的科学研究)论 文发表年均增长率为27.2%。 挖掘海量数据、助力文献分析、提供科研方案……当人工智能深度融入科研,给科研范式带来了哪些变 化?科学家们怎样利用人工智能做研究?智能时代,知识生产新范式又可能带来什么挑战?本版推 出"瞰前沿·人工智能如何改变科研范式"系列策划,本期聚焦心理学研究领域。 ——编者 心理学和人工智能有啥渊源? 在电影《流浪地球2》中,人工智能MOSS通过分析刘培强颤抖的嘴角和躲闪的眼神,瞬间识破他隐藏 的秘密。 这个科幻场景或许将照进现实——从手机的面部解锁功能,到购物APP的"猜你喜欢",再到心理咨询的 AI助手,心理学与人工智能携手进化。 实际上,心理学与人工智能渊源不小。 记得生理学家巴甫洛夫那只听到铃声就流口水的狗吗?这个经典的"条件反射"实验启发了人工智能领域 最重要的技术之一:强化学习。人工智能AlphaGo战胜人类围棋高手的绝招,本质上就像类似训练的升 级版,通过"吃"掉海量的围 ...