Workflow
强化学习
icon
Search documents
四位图灵奖掌舵:2025智源大会揭示AI进化新路径
机器之心· 2025-05-23 04:17
2006 年,多伦多大学 Geoffrey Hinton 教授等人提出逐层预训练方法,突破了深层神经网络训练的 技术瓶颈,为深度学习的复兴奠定了基础。 这个初夏 四位图灵奖得主 强化学习作为智能体与环境交互的学习范式,其核心思想早于深度学习兴起。2013 年 DeepMind 提 出的 DQN 已初步实现深度学习与强化学习的结合,而 2016 年 AlphaGo 的成功则将深度学习与强化 学习的融合推向公众视野,显著提升了这一交叉领域的关注度。 2025 年 6 月 6-7 日 中国,北京 与全球创新力量共赴智源大会 即刻报名,探寻 AI 时代的无尽边域 基础理论 在 AI 发展史上,连接主义(以神经网络为代表)与行为主义(以强化学习为代表)虽源自不同理论脉 络,但二者的技术交叉早有端倪。这两条主线原本独立成长、各自发展,如今交织融合,万宗归一,共 同构成了下一代通用人工智能的基石。 6 月 6 日,关于深度学习和强化学习的探讨,将在 2025 智源大会继续开展,如 「双星交汇 」般的时 空对话,总结过往、共探智能之谜的终极答案。 与此同时,推理大模型的兴起、开源生态的加速、具身智能的百花齐放,成为 2025 ...
5分钟读懂Lilian Weng万字长文:大模型是怎么思考的?
Hu Xiu· 2025-05-22 09:54
最近有三篇很火的bolg,第一篇是OpenAI researcher 姚顺雨的"欢迎来到下半场",第二篇是David Silver 和Richard S. Sutton的"Welcome to the Era of Experience",这是第三篇,Lilian Weng的Why We Think。 Lilian Weng的最新blog,还找了John Schulman润色。 道理其实很朴素,里边的内容大家都聊过,我们绝大部分也单独写过,但是这篇blog系统性地梳理了AI 最新范式:test-time compute。 LLM大模型是怎么思考的? ①从心理学角度:理论来源于丹尼尔·卡尼曼的《思考,快与慢》。 与人类思考方式有相似之处。 人脑有"系统1"(直觉、快速)和"系统2"(分析、缓慢)。 在推理模型出现之前,大模型的答案"脱口而出",这就是系统1。给AI多点时间思考,就像是激活了它 们的"系统2"。 ②从计算资源角度: ③从数学角度: 可以把整个"问题 (x) - 思考过程 (z) - 答案 (y)"看作一个概率模型。 思考过程z就是那个隐变量(hidden variable)。把各种可能的思考路径都 ...
特斯联完成战略升级:三项核心业务聚焦空间智能
Jing Ji Guan Cha Wang· 2025-05-22 08:23
4月30日,特斯联向港交所递交更新版招股书,首次披露全新升级的三大战略板块:AIoT领域模型、 AIoT基础设施、AIoT智能体,聚焦空间智能。 去年早些时候,特斯联曾在一次媒体采访中透露过战略的转型升级——大模型浪潮驱动下,科技企业在 GPU裸机上层搭建框架普遍需要额外投入,传统的软件公司不具备硬件适配能力,硬件厂商缺失AI能 力,而以AIoT起家的特斯联则天然具备软硬结合的基因,这使贯通顶层模型、应用,及底层基础设施 的业务纵深向延展成为特斯联独特的优势。 AIoT智能体,则作为特斯联空间智能解决方案的统筹交互界面,以机器人与智能穿戴设备为核心载 体,作用于企业级用户级终端消费者。 2024年底,特斯联创始人兼CEO艾渝曾在Web Summit Lisbon分享了通用智能体所需具备的四重能力 ——"类人"思考,长期记忆,"团队"协作,及高维感知。据特斯联首席科学家、特斯联国际总裁邵岭博 士透露,公司即将推出的智能体模型亦延循此路径。 在类人思考方向,该模型开创性地引入端到端强化学习(Reinforcement Learning)方法,使用高质量数 据微调训练出HALI基础模型,通过奖励函数(reward ...
人形机器人量产元年,关注产业链上下游投资机会
2025-05-18 15:48
人形机器人量产元年,关注产业链上下游投资机会 20250518 摘要 • 人形机器人执行器市场潜力巨大,四杠技术因特斯拉的应用而备受关注, 预计百万套量产级别后市场规模超百亿,轴承行业公司如五洲新春和金沃 股份凭借工艺和原材料优势切入该市场。 • 人形机器人硬件成本有望通过技术创新降低,如以车代磨、以选代磨等方 案,将催生国产化装备和刀具需求,沃尔德等企业有望受益。 • 人形机器人机械手自由度提升带来供应链变化,高精度模组价值量高,空 心杯电机、谐波减速器和 RV 减速器等上游核心部件存在机会,关注兆威 机电、节能驱动等企业。 • 若人形机器人行业量产达百万台以上,RV 减速器和六维力传感器将面临产 能缺口,绿的谐波、中大力德及科力尔等国产供应商值得关注。 • 浙江驱动作为传统机械行业龙头,积极布局线性集成器与领导控制业务, 一体化集成技术方案显著降低成本,与信邦智能合作顺利推进,海外客户 突破值得期待,2025 年绝对估值在 25-30 倍之间。 Q&A 2025 年人形机器人量产元年,机械维度的投资机会有哪些? 2025 年有望成为人形机器人量产元年,机械维度的投资机会主要集中在以下 几个方面: • 五洲 ...
特斯拉机器人流畅舞动,硬件软件双升级
2025-05-18 15:48
哪些具体标的值得关注? 首先是聚合顺,这是一家优质尼龙板块成长股,其尼龙材料已用于机器人的外 部覆盖物,例如灵巧手领域。公司积极参与相关业务发展,并通过下游企业间 接供给机器人企业送样。此外,中石科技在电子产品散热材料方面有丰富经验, 其散热材料未来在机器人领域也有应用潜力。这两个方向值得重点关注和跟踪。 • 钢材替代技术,如球墨铸铁替代合金钢,在耐磨性、自润滑效果和重量方 面具有优势。京运通钢材及球墨铸铁迭代技术在谐波减速器领域有巨大增 长潜力。 • 祥龙电业安徽新工厂预计今年实现 4 万吨产能增长,远期规划 15 万吨绿 色制造产能。祥龙科技重点研发谐波减速器柔轮材料,预计行星减速器材 料进展较快,机器人材料有望带来显著利润增厚。 对于人力资源板块及相关标的有哪些看法? 特斯拉机器人流畅舞动,硬件软件双升级 20250518 摘要 • 机器人材料领域正从原型机阶段走向大众视野,具备强定制化和改性能力 的企业将更具优势。行业竞争不仅体现在技术壁垒和服务,还包括成本控 制和解决方案提供能力。 • 尼龙材料供应商聚合顺已将产品应用于机器人外部覆盖物,并积极参与相 关业务发展。中石科技在电子产品散热材料领域的经验 ...
翁荔最新万字长文:Why We Think
量子位· 2025-05-18 05:20
网友们看罢,纷纷打出了 "精彩" 二字: 感觉就像打开了人工智能理解的一个全新维度。 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 《Why We Think》。 这就是北大校友、前OpenAI华人VP 翁荔 所发布的最新 万字长文 —— 围绕"测试时计算"(Test-time Compute)和"思维链"(Chain-of-Thought,CoT),讨论了如何通过这些技术显著提升模型性能。 翁荔表示: 让模型在输出答案前多思考一会儿(比如通过智能解码、思维链推理、潜在思考等方法),能显著提升它的智能水平,突破当前的能 力瓶颈。 那么接下来,我们就来深入了解一下这篇文章。 动机 让模型思考更长的时间可以通过几种不同的方式来激发。 心理学类比 核心思想与人类思考方式深度关联。 人类无法立即回答"12345×56789等于多少?",而是需要时间分析——这正是Daniel Kahneman在《思考,快与慢》(2013)中提出的双 系统理论: 因为系统1思维是快速和简单的,它经常以准确性和逻辑性为代价,成为主要的决策驱动因素。它自然依赖于我们大脑的思维捷径(即启发 式),并可能导致错误和偏见。 通过有意识地放 ...
刚刚!北大校友Lilian Weng最新博客来了:Why We Think
机器之心· 2025-05-18 04:25
选自 Lil'Log 作者: Lilian Weng 机器之心编译 学习大模型的优质博客又更新了! 最近,北大校友、前 OpenAI 应用 AI 研究负责人 Lilian Weng 更新了一篇长长长长长长长博客《Why We Think》。 文章回顾了近期在如何有效利用测试时计算(即「思考时间」)及其作用机制方面的研究进展,旨在让模型「思考得更久」这一目标可以从多个角度得到合理动 机支持。 通过观察 GPT、Claude、Gemini 等模型的迭代,可以清晰地看到,它们在复杂逻辑推理、长文本理解、数学问题求解以及代码生成与调试等高级认知任务上的性 能边界被不断拓展。 这种性能的提升得益于思维链(CoT)和测试时计算等策略的优化,但也带来了新的研究挑战。 为了方便国内读者更好地学习这篇内容,机器之心对此文章进行了编译。感兴趣的读者也可查阅原英文内容。 英文博客链接: https://lilianweng.github.io/posts/2025-05-01-thinking/ 类比心理学 该核心思想与人类的思维方式密切相关。人类通常无法立即给出「12345 × 56789」的答案,对于复杂问题,进行一段时间的思 ...
OpenAI:GPT-5就是All in One,集成各种产品
量子位· 2025-05-17 03:50
一水 发自 凹非寺 量子位 | 公众号 QbitAI GPT-5将会集大成于一体?! 就在发布"最强编程智能体Codex"之后 ,OpenAI又接着在Reddit举行了 "有问必答"活动 。 公司研究副总裁Jerry Tworek,剧透了下一代基础模型GPT-5的最新消息: 为了减少模型切换,未来计划将Codex、Operator、Deep Research和Memory整合在一起 。 Q3 : 团队在使用Codex时,发现了哪些与目前的"氛围编码(vibe coding)"不同的范式转变?开发这个工具的灵感是什么? 除此之外,其他Codex团队成员也纷纷开启了爆料模式,比如: Okk,下面我们一起吃瓜。 回应10大重点问题 Codex最初只是一个附带项目,启动原因是他们意识到在内部工作流中未充分利用好模型; 内部在使用Codex时,编程效率提升了约3倍; OpenAI正在探索灵活的定价方案,包括按需付费; o3-pro或codex-1-pro最终将在团队能力允许的情况下推出; …… 整体而言,OpenAI团队这次主要分享了Codex的详细情况,以及公司未来的发展计划。 为了尽量贴合问答者原意,我们直接以对话 ...
OpenAI首席科学家帕乔茨基:AI已开始具备原创性研究能力
3 6 Ke· 2025-05-16 10:14
OpenAI首席科学家雅库布・帕乔茨基于近日接受了《自然》杂志的专访。帕乔茨基在访谈中表示,目 前强化学习正在推动AI模型逼近"推理"边界,AGI正从理论走向现实,而开源与安全之间的张力是当前 AI发展的一大挑战。 雅库布・帕乔茨基:现在我们能与模型对话,但它仍然需要持续指导。我认为未来的重大变化之一,就 是这一点(指AI作为助手角色)将被根本性地改善。 我们已经看到类似OpenAI 的 "Deep Research"等 工具(可整合大量信息)在无人监督的情况下,能运行 10到20分钟并产出有价值的内容,而完成这些任务所需的计算资源其实很少。 帕乔茨基预计,未来AI将能够独立完成真正具有原创性的科学研究任务,推动软件工程、硬件设计等 多个学科的发展。 那么,如果我们面临开放性研究问题,花更多算力是值得的。 以下为访谈内容摘要: 我相信未来我们将拥有真正具备原创研究能力的AI。我们将在诸如自动软件工程、硬件组件自主设计 等领域取得巨大进展,并扩展到其他学科的类似应用中。 问:目前,科学家们越来越多地使用推理模型。你认为这些模型在五年后会扮演怎样的角色? 问:在构建OpenAI的推理模型方面,强化学习发挥了多大作 ...
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
机器之心· 2025-05-16 04:39
随着大模型(LLMs)的快速发展和可集成工具的爆炸增长,AI 智能助手在日常生活中可提供的便利越来越多,不仅包括传统任务型对话中订机票、查询天气等助 理能力,还增加了无以计数的 AI 能力,如 AI 画图、解数学题、游戏攻略等。而 AI 智能助手准确理解用户的意图(Intent Detection)并路由至下游工具链是实现 这些功能的第一步,其重要性不言而喻。 然而,工具的快速迭代、多样化、工具之间关系的复杂化也给意图识别带来新的挑战,即模型在应对新意图时普遍存在性能衰减问题。如何在开源的轻量级 LLMs 上训练泛化性更好、鲁棒性更强的意图识别模型,使得模型能够更准确理解未见场景的意图至关重要。 近日,腾讯 PCG 社交线的研究团队针对这一问题,采用强化学习(RL)训练方法,通过分组相对策略优化(Group Relative Policy Optimization, GRPO)算法,结 合基于奖励的课程采样策略(Reward-based Curriculum Sampling, RCS),将其创新性地应用在意图识别任务上,显著提升模型在未知意图上的泛化能力,攻克了 工具爆炸引发的意图泛化难题,推动大模型在意图 ...