课程学习

Search documents
沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
机器之心· 2025-09-05 04:31
机器之心发布 为了破解这一痛点,华为近日发布了 专为昇腾端侧硬件打造的高性能语言模型 ——openPangu Embedded-1B 。该模型虽然只有 10 亿参数,却通过软硬件协同设 计显著降低推理延迟、提升资源利用率,并采用多阶段训练策略(包括从零预训练、课程学习式微调、离线 On-Policy 蒸馏、多源奖励强化学习)大幅增强各类任 务表现。 得益于多阶段训练与优化,openPangu Embedded-1B 在十亿参数的体量下实现了性能与效率的高度协同,成功将强大的大模型能力带到了端侧设备上,树立了「小 模型大能力」的新标杆。 评测成绩说明了一切,openPangu Embedded-1B 在多个权威基准上表现亮眼, 创下了 10 亿参数级别模型的全新 SOTA 纪录 。 模型的 整体平均分达到 63.90 ,不仅全面领先同类模型,甚至持平更大规模的 Qwen3-1.7B(63.69),充分体现了出色的参数效率。这表明,先进的训练与对齐方 法可以比单纯扩大模型规模更具成效。 机器之心编辑部 在端侧 AI 这个热门赛道,华为盘古大模型扔下了一颗 " 重磅炸弹" 。 如今,云端大模型已经能侃侃而谈、答疑解 ...
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
机器之心· 2025-05-29 04:53
方法 无需搜索的强化学习框架 本文作者来自通义实验室和北京大学,第一作者是北京大学智能学院博士生孙浩,主要研究方向是RAG和Agent,在 NeurIPS、ACL、EMNLP 等国际顶级会议上 发表多篇论文,师从张岩教授。该工作在阿里巴巴通义实验室RAG团队实习期间完成。 信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中 面临两大核心挑战: 为了解决这些问题,我们提出了 ZeroSearch 框架 —— 无需真实搜索,直接用大语言模型模拟搜索引擎,并引入课程学习策略,在显著降低 88% 成本的同时,在 多项任务上性能超过依赖真实搜索引擎的方法。 传统训练方法需要在 Rollout 阶段频繁与真实搜索引擎交互,产生大量 API 开销,而大语言模型在预训练阶段积累了丰富的世界知识,具备根据 query 返回相关信 息的能力,因此 ZeroSearch 创新性地引入大语言模型作为模拟搜索引擎(Simulation LLM),无需真实搜索,即可为策略模型生成检索文档,大幅降低了训练成 本: $$\oper ...