强化学习 - filings, earnings calls, financial reports, news

强化学习

Search documents

四位图灵奖掌舵：2025智源大会揭示AI进化新路径

机器之心· 2025-05-23 04:17

2006 年，多伦多大学 Geoffrey Hinton 教授等人提出逐层预训练方法，突破了深层神经网络训练的技术瓶颈，为深度学习的复兴奠定了基础。这个初夏四位图灵奖得主强化学习作为智能体与环境交互的学习范式，其核心思想早于深度学习兴起。2013 年 DeepMind 提出的 DQN 已初步实现深度学习与强化学习的结合，而 2016 年 AlphaGo 的成功则将深度学习与强化学习的融合推向公众视野，显著提升了这一交叉领域的关注度。 2025 年 6 月 6-7 日中国，北京与全球创新力量共赴智源大会即刻报名，探寻 AI 时代的无尽边域基础理论在 AI 发展史上，连接主义（以神经网络为代表）与行为主义（以强化学习为代表）虽源自不同理论脉络，但二者的技术交叉早有端倪。这两条主线原本独立成长、各自发展，如今交织融合，万宗归一，共同构成了下一代通用人工智能的基石。 6 月 6 日，关于深度学习和强化学习的探讨，将在 2025 智源大会继续开展，如「双星交汇」般的时空对话，总结过往、共探智能之谜的终极答案。与此同时，推理大模型的兴起、开源生态的加速、具身智能的百花齐放，成为 2025 ...

Artificial Intelligence

深度学习

强化学习

具身智能

Artificial Intelligence

AlphaGo

Artificial Intelligence

深度学习

强化学习

具身智能

Artificial Intelligence

AlphaGo

5分钟读懂Lilian Weng万字长文：大模型是怎么思考的？

Hu Xiu· 2025-05-22 09:54

最近有三篇很火的bolg，第一篇是OpenAI researcher 姚顺雨的"欢迎来到下半场"，第二篇是David Silver 和Richard S. Sutton的"Welcome to the Era of Experience"，这是第三篇，Lilian Weng的Why We Think。 Lilian Weng的最新blog，还找了John Schulman润色。道理其实很朴素，里边的内容大家都聊过，我们绝大部分也单独写过，但是这篇blog系统性地梳理了AI 最新范式：test-time compute。 LLM大模型是怎么思考的？ ①从心理学角度：理论来源于丹尼尔·卡尼曼的《思考，快与慢》。与人类思考方式有相似之处。人脑有"系统1"（直觉、快速）和"系统2"（分析、缓慢）。在推理模型出现之前，大模型的答案"脱口而出"，这就是系统1。给AI多点时间思考，就像是激活了它们的"系统2"。 ②从计算资源角度： ③从数学角度：可以把整个"问题 (x) - 思考过程 (z) - 答案 (y)"看作一个概率模型。思考过程z就是那个隐变量（hidden variable）。把各种可能的思考路径都 ...

特斯联完成战略升级：三项核心业务聚焦空间智能

Jing Ji Guan Cha Wang· 2025-05-22 08:23

4月30日，特斯联向港交所递交更新版招股书，首次披露全新升级的三大战略板块：AIoT领域模型、 AIoT基础设施、AIoT智能体，聚焦空间智能。去年早些时候，特斯联曾在一次媒体采访中透露过战略的转型升级——大模型浪潮驱动下，科技企业在 GPU裸机上层搭建框架普遍需要额外投入，传统的软件公司不具备硬件适配能力，硬件厂商缺失AI能力，而以AIoT起家的特斯联则天然具备软硬结合的基因，这使贯通顶层模型、应用，及底层基础设施的业务纵深向延展成为特斯联独特的优势。 AIoT智能体，则作为特斯联空间智能解决方案的统筹交互界面，以机器人与智能穿戴设备为核心载体，作用于企业级用户级终端消费者。 2024年底，特斯联创始人兼CEO艾渝曾在Web Summit Lisbon分享了通用智能体所需具备的四重能力 ——"类人"思考，长期记忆，"团队"协作，及高维感知。据特斯联首席科学家、特斯联国际总裁邵岭博士透露，公司即将推出的智能体模型亦延循此路径。在类人思考方向，该模型开创性地引入端到端强化学习（Reinforcement Learning）方法，使用高质量数据微调训练出HALI基础模型，通过奖励函数（reward ...

人形机器人量产元年，关注产业链上下游投资机会

2025-05-18 15:48

人形机器人量产元年，关注产业链上下游投资机会 20250518 摘要 • 人形机器人执行器市场潜力巨大，四杠技术因特斯拉的应用而备受关注，预计百万套量产级别后市场规模超百亿，轴承行业公司如五洲新春和金沃股份凭借工艺和原材料优势切入该市场。 • 人形机器人硬件成本有望通过技术创新降低，如以车代磨、以选代磨等方案，将催生国产化装备和刀具需求，沃尔德等企业有望受益。 • 人形机器人机械手自由度提升带来供应链变化，高精度模组价值量高，空心杯电机、谐波减速器和 RV 减速器等上游核心部件存在机会，关注兆威机电、节能驱动等企业。 • 若人形机器人行业量产达百万台以上，RV 减速器和六维力传感器将面临产能缺口，绿的谐波、中大力德及科力尔等国产供应商值得关注。 • 浙江驱动作为传统机械行业龙头，积极布局线性集成器与领导控制业务，一体化集成技术方案显著降低成本，与信邦智能合作顺利推进，海外客户突破值得期待，2025 年绝对估值在 25-30 倍之间。 Q&A 2025 年人形机器人量产元年，机械维度的投资机会有哪些？ 2025 年有望成为人形机器人量产元年，机械维度的投资机会主要集中在以下几个方面： • 五洲 ...

2025-05-18 15:48

哪些具体标的值得关注？首先是聚合顺，这是一家优质尼龙板块成长股，其尼龙材料已用于机器人的外部覆盖物，例如灵巧手领域。公司积极参与相关业务发展，并通过下游企业间接供给机器人企业送样。此外，中石科技在电子产品散热材料方面有丰富经验，其散热材料未来在机器人领域也有应用潜力。这两个方向值得重点关注和跟踪。 • 钢材替代技术，如球墨铸铁替代合金钢，在耐磨性、自润滑效果和重量方面具有优势。京运通钢材及球墨铸铁迭代技术在谐波减速器领域有巨大增长潜力。 • 祥龙电业安徽新工厂预计今年实现 4 万吨产能增长，远期规划 15 万吨绿色制造产能。祥龙科技重点研发谐波减速器柔轮材料，预计行星减速器材料进展较快，机器人材料有望带来显著利润增厚。对于人力资源板块及相关标的有哪些看法？特斯拉机器人流畅舞动，硬件软件双升级 20250518 摘要 • 机器人材料领域正从原型机阶段走向大众视野，具备强定制化和改性能力的企业将更具优势。行业竞争不仅体现在技术壁垒和服务，还包括成本控制和解决方案提供能力。 • 尼龙材料供应商聚合顺已将产品应用于机器人外部覆盖物，并积极参与相关业务发展。中石科技在电子产品散热材料领域的经验 ...

翁荔最新万字长文：Why We Think

量子位· 2025-05-18 05:20

网友们看罢，纷纷打出了 "精彩" 二字：感觉就像打开了人工智能理解的一个全新维度。金磊发自凹非寺量子位 | 公众号 QbitAI 《Why We Think》。这就是北大校友、前OpenAI华人VP 翁荔所发布的最新万字长文 —— 围绕"测试时计算"（Test-time Compute）和"思维链"（Chain-of-Thought，CoT），讨论了如何通过这些技术显著提升模型性能。翁荔表示：让模型在输出答案前多思考一会儿（比如通过智能解码、思维链推理、潜在思考等方法），能显著提升它的智能水平，突破当前的能力瓶颈。那么接下来，我们就来深入了解一下这篇文章。动机让模型思考更长的时间可以通过几种不同的方式来激发。心理学类比核心思想与人类思考方式深度关联。人类无法立即回答"12345×56789等于多少？"，而是需要时间分析——这正是Daniel Kahneman在《思考，快与慢》（2013）中提出的双系统理论：因为系统1思维是快速和简单的，它经常以准确性和逻辑性为代价，成为主要的决策驱动因素。它自然依赖于我们大脑的思维捷径（即启发式），并可能导致错误和偏见。通过有意识地放 ...

刚刚！北大校友Lilian Weng最新博客来了：Why We Think

机器之心· 2025-05-18 04:25

选自 Lil'Log 作者： Lilian Weng 机器之心编译学习大模型的优质博客又更新了！最近，北大校友、前 OpenAI 应用 AI 研究负责人 Lilian Weng 更新了一篇长长长长长长长博客《Why We Think》。文章回顾了近期在如何有效利用测试时计算（即「思考时间」）及其作用机制方面的研究进展，旨在让模型「思考得更久」这一目标可以从多个角度得到合理动机支持。通过观察 GPT、Claude、Gemini 等模型的迭代，可以清晰地看到，它们在复杂逻辑推理、长文本理解、数学问题求解以及代码生成与调试等高级认知任务上的性能边界被不断拓展。这种性能的提升得益于思维链（CoT）和测试时计算等策略的优化，但也带来了新的研究挑战。为了方便国内读者更好地学习这篇内容，机器之心对此文章进行了编译。感兴趣的读者也可查阅原英文内容。英文博客链接： https://lilianweng.github.io/posts/2025-05-01-thinking/ 类比心理学该核心思想与人类的思维方式密切相关。人类通常无法立即给出「12345 × 56789」的答案，对于复杂问题，进行一段时间的思 ...

Artificial Intelligence

Artificial Intelligence

DeepSeek - V3

OpenAI：GPT-5就是All in One，集成各种产品

量子位· 2025-05-17 03:50

一水发自凹非寺量子位 | 公众号 QbitAI GPT-5将会集大成于一体？！就在发布"最强编程智能体Codex"之后，OpenAI又接着在Reddit举行了 "有问必答"活动。公司研究副总裁Jerry Tworek，剧透了下一代基础模型GPT-5的最新消息：为了减少模型切换，未来计划将Codex、Operator、Deep Research和Memory整合在一起。 Q3 : 团队在使用Codex时，发现了哪些与目前的"氛围编码（vibe coding）"不同的范式转变？开发这个工具的灵感是什么？除此之外，其他Codex团队成员也纷纷开启了爆料模式，比如： Okk，下面我们一起吃瓜。回应10大重点问题 Codex最初只是一个附带项目，启动原因是他们意识到在内部工作流中未充分利用好模型；内部在使用Codex时，编程效率提升了约3倍； OpenAI正在探索灵活的定价方案，包括按需付费； o3-pro或codex-1-pro最终将在团队能力允许的情况下推出； …… 整体而言，OpenAI团队这次主要分享了Codex的详细情况，以及公司未来的发展计划。为了尽量贴合问答者原意，我们直接以对话 ...

强化学习

检索增强生成（RAG）技术

Artificial Intelligence

Artificial Intelligence

Codex

GPT-5

Operator

OpenAI首席科学家帕乔茨基：AI已开始具备原创性研究能力

3 6 Ke· 2025-05-16 10:14

OpenAI首席科学家雅库布・帕乔茨基于近日接受了《自然》杂志的专访。帕乔茨基在访谈中表示，目前强化学习正在推动AI模型逼近"推理"边界，AGI正从理论走向现实，而开源与安全之间的张力是当前 AI发展的一大挑战。雅库布・帕乔茨基：现在我们能与模型对话，但它仍然需要持续指导。我认为未来的重大变化之一，就是这一点（指AI作为助手角色）将被根本性地改善。我们已经看到类似OpenAI 的 "Deep Research"等工具（可整合大量信息）在无人监督的情况下，能运行 10到20分钟并产出有价值的内容，而完成这些任务所需的计算资源其实很少。帕乔茨基预计，未来AI将能够独立完成真正具有原创性的科学研究任务，推动软件工程、硬件设计等多个学科的发展。那么，如果我们面临开放性研究问题，花更多算力是值得的。以下为访谈内容摘要：我相信未来我们将拥有真正具备原创研究能力的AI。我们将在诸如自动软件工程、硬件组件自主设计等领域取得巨大进展，并扩展到其他学科的类似应用中。问：目前，科学家们越来越多地使用推理模型。你认为这些模型在五年后会扮演怎样的角色？问：在构建OpenAI的推理模型方面，强化学习发挥了多大作 ...

Artificial Intelligence

AGI

强化学习

Artificial Intelligence

Deep Research

Artificial Intelligence

AGI

强化学习

Artificial Intelligence

Deep Research

泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法

机器之心· 2025-05-16 04:39

随着大模型（LLMs）的快速发展和可集成工具的爆炸增长，AI 智能助手在日常生活中可提供的便利越来越多，不仅包括传统任务型对话中订机票、查询天气等助理能力，还增加了无以计数的 AI 能力，如 AI 画图、解数学题、游戏攻略等。而 AI 智能助手准确理解用户的意图（Intent Detection）并路由至下游工具链是实现这些功能的第一步，其重要性不言而喻。然而，工具的快速迭代、多样化、工具之间关系的复杂化也给意图识别带来新的挑战，即模型在应对新意图时普遍存在性能衰减问题。如何在开源的轻量级 LLMs 上训练泛化性更好、鲁棒性更强的意图识别模型，使得模型能够更准确理解未见场景的意图至关重要。近日，腾讯 PCG 社交线的研究团队针对这一问题，采用强化学习（RL）训练方法，通过分组相对策略优化（Group Relative Policy Optimization, GRPO）算法，结合基于奖励的课程采样策略（Reward-based Curriculum Sampling, RCS），将其创新性地应用在意图识别任务上，显著提升模型在未知意图上的泛化能力，攻克了工具爆炸引发的意图泛化难题，推动大模型在意图 ...

意图识别

强化学习

泛化能力

Artificial Intelligence

Artificial Intelligence

AI智能助手

Previous Next