元思维

Search documents
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
机器之心· 2025-07-03 03:26
本文第一作者为上海交通大学计算机科学四年级博士生万梓煜,主要研究方向为强化学习、基础模型的复杂推理,通讯作者为上海交通大学人工智能学院温颖副 教授和上海人工智能实验室胡舒悦老师。团队其他成员包括来自英属哥伦比亚大学的共同第一作者李云想、Mark Schmidt 教授,伦敦大学学院的宋研、杨林易和 汪军教授,上海交通大学的温潇雨,王翰竟和张伟楠教授。 引言 最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeekR1)。然而,大模型何时产生 "顿悟(AhaMoment)" 的机理仍未明晰。近期多 项研究提出推理模式(reasoning pattern)对于推理能力的重要作用。类似的,本研究认为 大模型复杂推理的能力强弱本质在于元思维能力的强弱。 所谓 "元思维" (meta-thinking),即监控、评估和控制自身的推理过程,以实现更具适应性和有效性的问题解决,是智 ...
【内部培训】如何构建你的知识体系(新材料篇)?
材料汇· 2025-05-30 15:35
点击 最 下方 " 推荐"、"赞 "及" 分享 ","关注"材料汇 添加 小编微信 ,遇见 志同道合 的你 正文 构建知识体系 Carl 1、理论篇 2、思维篇 3、方法篇 4、提升篇 rd is p Quite THE | NEW BER 699 B 24 2477 339 and for any #4 官方 F 1 4 1 r 19 G P 85 Hopp 436电视 2200 - 2017 Exper 唱 2417 网站 4599 r with - 100 800 的 HIST PER SPA 用品 足天の -视频 t 2 足 1月前总结 r pwww.m 下演剧 博助 RESION fort 818 3112017 BALL GILL 5 20 FOR @ mpag 4 79 板 S 工8 版电维维 GD HB 11 22 7 日本站 px | | BB 477 x B 0 =坊 不得 拉萨 机双字 四周 the may eller 1 本 -546819 a JERS રેક્ટ્રિ 网 多台 建材 高入 7 677910 題寫×3 ** 180 好 遇 TF 27 ヴコ ogy - Treati ...
走近申万宏源研究人 | 王珂
申万宏源研究· 2025-04-16 01:02
探索市场脉动,洞悉行业趋势。申万宏源研究特别推出系列访谈—— "走近申万宏源研究 人" ,我们将聚焦所内的杰出分析师,深刻探索他们的从业经历、研究见解,向您展现分析师 的多面性,带您走进Ta背后的成长故事。 本期"走近申万宏源研究人"带您了解 机械行业首席分析师—王珂。 王珂,申万宏源研究 机械行业首席分析师、机器人产业链 链长。 厦门大学核科学与工程专业硕 士,在校期间荣获厦门市科技进步二等奖、国家发明专利2项。 具有10年机械行业研究经验,2015-2020年作为核心成员荣获 新财富最佳分析师、金牛奖最佳分析 师 等。 Q&A 对话王珂 01 【专业领域知识】 您如何看待机械行业的研究价值、产业定位? 装备制造业是典型的中游行业,几乎所有的工业部门都有对应的生产装备,甚至生产机械的机械也 是一个独立行当,也就是我们说的"工业母机", 因此机械行业是研究各类下游行业乃至景气周期的重要 参考系, 观察机械细分行业的需求变化往往能起到见微知著的中观效果。 同时,作为生产工具, 机械是衡量 生产力发展水平的客观尺度,是划分经济时代的客观依据 ,我 们国家工业经济的每个阶段都有对应的机械品类大发展,并涌现出一批时代 ...