开源智能

Search documents
计算机行业点评报告:Kimi:Researcher、K2双线突破,强化学习革新与开源智能的双擎驱动
Huaxin Securities· 2025-07-21 13:34
2025 年 07 月 21 日 Kimi:Researcher、K2 双线突破,强化学习革 新与开源智能的双擎驱动 —计算机行业点评报告 推荐(维持) 事件 分析师:宝幼琛 S1050521110002 baoyc@cfsc.com.cn 联系人:谢孟津 S1050123110012 xiemj@cfsc.com.cn 市场表现 资料来源:Wind,华鑫证券研究 -20 0 20 40 60 80 (%) 计算机 沪深300 相关研究 1、《计算机行业周报:Grok4 屠榜 验证 Scalinglaw 有效,高德地图推 出小高智能体》2025-07-16 2、《计算机行业周报:谷歌发布全 新多模态大模型 Gemma3n,阿里达摩 院发布医疗 AI 模型 DAMOGRAPE》 2025-06-30 3、《计算机行业点评报告:优步 (UBER.O):战略技术攻坚筑壁 垒,生态破局启新程》2025-06-28 2025 年 6 月,Moonshot AI 推出 Kimi-Researcher,通过端 到端强化学习实现多轮搜索推理,在 Humanity's Last Exam 基准以 26.9% Pass@1 刷新 ...
开源Agent新标杆:通义WebSailor多榜夺魁,挑战OpenAI高难度Agent基准BrowseComp
机器之心· 2025-07-07 07:50
一、背景:开源 Web Agent 在艰难任务中的困境与突破 在信息爆炸的时代,传统搜索引擎难以满足用户对深层次、多步骤信息获取的需求。从医学研究到科技创新,从商业决策到学术探索,许多 复杂问题的解决都需要深入的信息挖掘和多步推理。然而,人类在有限时间和精力下很难手工完成如此繁琐的检索与推理过程,这可以说触 及了人类认知的极限。为此,研究者们希望打造能够自主思考、自主决策的智能体,帮助我们应对这些复杂的信息检索任务。 当前开源 Web Agent 在极端复杂任务上表现不佳。OpenAI 提出的 DeepResearch 等闭源系统已经在极复杂的信息检索基准上展示了超越人类 的能力,如在 BrowseComp 任务上取得了 "超人类" 水平的成绩。相形之下,开源模型在这些任务上几乎束手无策:例如在 BrowseComp-en 这样的复杂基准上,已有开源 LLM 与 Web Agent 的准确率几乎为零。这意味着现有训练范式尚未赋予开源模型应对极高不确定性任务所需 的推理模式。简言之,开源智能体一直受困于无法有效降低极端不确定性。 BrowseComp 有多难?下面是一个例子: 有一部 HBO 剧集在 2018 ...