强化学习 - filings, earnings calls, financial reports, news

强化学习

Search documents

3 6 Ke· 2025-07-02 08:06

当地时间7月1日，OpenAI在Youtube官方账号发布了第二期播客节目——由前工程师安德鲁・梅恩（Andrew Mayne）主持，公司首席研究官马克・陈（Mark Chen）和ChatGPT负责人尼克・特利（Nick Turley）作为嘉宾参与。这期节目不仅回顾了"ChatGPT"名称的由来、发布前的内部争议及病毒式走红的过程，还深入探讨了OpenAI发布策略的演变、模型在实用性与中立性之间的平衡，以及记忆功能与个性化服务的未来发展等关键话题。核心观点有：以下为此次播客节目的精华版内容： 01.ChatGPT名称的由来在人工智能发展史上，ChatGPT的诞生充满戏剧性。特利回忆，它最初叫"Chat with GPT-3.5"，发布前夕团队深夜临时决定简化名称，这看似随意的调整，却让它成了科技史上辨识度极高的品牌。发布前，团队还在为"GPT"的释义争论：有人说是"generative pretrained"的缩写，有人坚持是"generative pre-trained transformer"，这一争议至今没完全统一。产品发布后的爆火远超预期。特利说，发布首日看到数据还以为统计错了，直到第 ...

人工智能

通用人工智能

人类反馈强化学习（RLHF）

Artificial Intelligence

Artificial Intelligence

ChatGPT

Codex

9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源

量子位· 2025-07-02 04:46

金磊发自凹非寺量子位 | 公众号 QbitAI 如果一个视觉语言模型（VLM）只会"看"，那真的是已经不够看的了。因为现在真实世界的任务简直不要太复杂，要想让AI干点实事儿，光有多模态还不够，必须还得有深度思考的强推理能力。而就在刚刚，智谱发布并开源了一个仅9B大小的模型—— GLM-4.1V-9B-Thinking ，在28项评测中一举拿下 23个SOTA！毫无悬念地成为10B级别里效果最好的VLM模型；而在18项评测中，它都可以与自身8倍参数量的Qwen-2.5-VL-72B一较高下，甚至是超越的程度。整体来看，GLM-4.1V-9B-Thinking之所以能够这般"以小搏大"，核心原因就是会思考：引入了思维链（Chain-of-Thought）推理机制，并通过课程采样强化学习（RLCS，Reinforcement Learning with Curriculum Sampling）来全面提升模型能力。值得一提的是，在智谱这次发布新模型之际，浦东创投集团和张江集团对其进行了 10亿元投资，并将于近期完成首次交割。评测是一方面，但也正如我们刚才提到的，现在的A ...

多模态AI

思维链推理机制

课程采样强化学习

Artificial Intelligence

Artificial Intelligence

GLM-4.1V-9B-Thinking

狄耐克：脑机交互事业部提出基于深度强化学习的主动式脑机接口共同控制方案

news flash· 2025-07-02 03:19

Core Insights - Dr. Peng Junren from Dineike's Brain-Computer Interface (BCI) division published a paper in the "Annals of the New York Academy of Sciences" discussing a new approach to shared autonomy between human electroencephalography and TD3 deep reinforcement learning [1] - The study indicates that approximately 15%-30% of users are unable to effectively operate traditional BCI systems due to physiological differences, highlighting a gap in current technology that only measures internal brain activity without considering environmental factors [1] - Dineike's BCI division proposes an active BCI co-control scheme based on deep reinforcement learning, aiming to provide a new paradigm for the universal application of BCIs through collaborative decision-making between humans and AI agents [1] - The next steps for Dineike involve focusing on breakthroughs in core technologies related to brainwave interaction and the industrialization of these technologies, moving from laboratory research to practical applications [1]

Dnake (Xiamen) Intelligent Technology (SZ:300884)

深度强化学习

脑机接口

基于深度强化学习的主动式脑机接口共同控制方案

深度强化学习

脑机接口

基于深度强化学习的主动式脑机接口共同控制方案

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

量子位· 2025-07-02 02:02

SRFT团队投稿量子位 | 公众号 QbitAI 通过单阶段监督微调与强化微调结合，让大模型在训练时能同时利用专家演示和自我探索试错，有效提升大模型推理性能。中国科学院自动化研究所深度强化学习团队联合美团，提出一种单阶段监督-强化微调方法——SRFT (Supervised Reinforcement Fine-Tuning) 。该方法通过基于熵的动态加权机制，将两种训练范式结合。在大语言模型（LLM）的推理能力提升上，监督微调（SFT）和强化学习（RL，有时也称作强化微调，RFT）是两条核心技术路线。但它们各自都存在瓶颈： SFT擅长模仿专家解题思路，类似"背书"，能快速为模型打下基础，但缺点是容易陷入死记硬背，缺乏在新问题上灵活应用和寻找最优解的能力； RFT/RL通过不断试错来探索解题方法，类似"刷题"，能够发现更优解法，但其探索过程效率低下，容易面临模式崩溃风险。因此，目前研究者通常采用两阶段顺序方法SFT→RFT/RL：先用SFT学习高质量数据集，再用RFT/RL进一步优化对齐LLM策略（即先"背完书"再"去刷题"）。然而，这种串行方式不仅影响学习效率，还常常导致模型 ...

SRFT (Supervised Reinforcement Fine - Tuning)

SRFT (Supervised Reinforcement Fine - Tuning)

小米社招&校招 | 自动驾驶与具身智能算法研究员 (VLA/具身方向)

自动驾驶之心· 2025-07-01 12:58

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线职位描述我们正在寻找一位杰出的研究员/科学家，加入我们的前沿探索团队，共同定义和构建下一代自动驾驶与机器人的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究，该模型将深度融合视觉-语言-行动 (VLA) 能力，并具备卓越的空间感知与空间推理能力。多模态场景理解：融合视觉、语言、雷达等多源信息，实现对动态、开放环境的深刻理解和空间感知。复杂语义推理与决策：让模型能够理解模糊、抽象的人类指令，并结合对物理世界的空间推理，生成安全、合理、可解释的行动序列。学习与适应机制：深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法，使模型能从海量数据和与环境的交互中持续学习和进化。技术愿景与路线图：主导构建可泛化、高效率的具身智能基座模型，为未来1-3年的技术演进提供核心支撑，并探索其在自动驾驶和通用机器人领域的统一应用潜力。学术影响力与合作：与全球顶尖高校及研究机构合作，探索表征学习、因果推理、世界模型等长期议题。在CVPR、 ...

小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)

具身智能之心· 2025-07-01 12:07

核心职责包括前沿算法研究与构建：负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架，更将探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。核心模型能力攻关：主导模型在以下关键能力上的突破：多模态场景理解：融合视觉、语言、雷达等多源信息，实现对动态、开放环境的深刻理解和空间感知。职位描述我们正在寻找一位杰出的研究员/科学家，加入我们的前沿探索团队，共同定义和构建下一代自动驾驶与机器人的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究，该模型将深度融合视觉-语言-行动 (VLA) 能力，并具备卓越的空间感知与空间推理能力。复杂语义推理与决策：让模型能够理解模糊、抽象的人类指令，并结合对物理世界的空间推理，生成安全、合理、可解释的行动序列。学习与适应机制：深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法，使模型能从海量数据和与环境的交互中持续学习和进化。技术愿景与路线图：主导构建可泛化、高效率的具身智能基座模型，为未来1-3年的技术演进提供核心支 ...

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

量子位· 2025-07-01 00:53

招商局狮子山人工智能实验室投稿量子位 | 公众号 QbitAI 大模型可以不再依赖人类调教，真正"自学成才"啦？新研究仅通过 RLVR （可验证奖励的强化学习），成功让模型自主进化出通用的探索、验证与记忆能力，让模型学会"自学"！当前主流的LLM Agent依然高度依赖于提示词工程、复杂的系统编排、甚至静态规则表，这使得它们在面对复杂任务时难以实现真正的智能行为演化。而来自招商局狮子山人工智能实验室的研究团队认为，RLVR范式是智能体（Agent）通往更高通用性和自主性的重要突破口。于是，他们从两个关键层面出发构建了端到端Agent训练pipeline—— L0系统：智能体架构层面提出了结构化智能体框架——NB-Agent，在经典"代码即行动" （Code-as-Action）架构基础上进行扩展，使智能体能够操作记忆/上下文，从而获得类人类的记忆存储、信息总结与自我反思能力。学习范式层面探索了一个核心问题：是否可以仅通过RLVR范式，引导智能体从零开始，学会如何规划、搜索、验证与记忆，最终解决复杂的多轮推理任务？ L0系统的框架、模型及训练集已全部开源，详细可见文末链接。 ...

暑假打打比赛！PRCV 2025空间智能与具身智能视觉感知挑战赛正式启动~

自动驾驶之心· 2025-06-30 12:51

空间智能与具身智能视觉感知挑战赛竞赛目的与意义视觉感知是实现空间智能与具身智能的关键支撑技术，近年来在自动驾驶、智慧城市、机器人等场景中展现出广泛应用前景。特别是强化学习等技术在智能体感知与决策中的深度融合，正在成为推动该领域突破的重要力量。 • 推动高效、高质量的空间智能和具身智能技术的研究。 • 探索强化学习、计算机视觉、图形学等前沿方法的创新。 • 促进神经渲染、场景优化和机器人抓取等方向的应用。竞赛组织方组织者：彭君然、陈磊、唐彦嵩、刘健、许修为、尹航、孙浩文、卫浩宇、刘旭阳、赵鑫指导专家：张兆翔、鲁继文、殷绪成组织单位：北京科技大学、清华大学、中国科学院自动化研究所、北京九章云极科技有限公司、塞弗卓盈（上海）科技有限公司赞助商及技术支持单位：北京九章云极科技有限公司媒体支持单位：塞弗卓盈（上海）科技有限公司联系电话：13051937326 联系邮箱： prcvcompetition@126.com 微信交流群：报名邮件回复确定参赛者要求：按自愿报名的原则，参赛团队和成员的组成可以为：报名方式以个人或团队方式均可通过邮件方式报名参赛，每个参赛队伍人员不 ...

具身智能领域，全球Top50国/华人图谱（含具身智能赛道“师徒关系图”）

Robot猎场备忘录· 2025-06-30 08:09

温馨提示：点击下方图片，查看运营团队2025年6月最新原创报告（共235页）说明：欢迎约稿、刊例和商务合作、行业人士交流，行业交流记得先加入 "机器人头条"知识星球，后添加（微信号： lietou100w ）微信；若有侵权、改稿请联系编辑运营（微信：li_sir_2020）；正文：随着人工智能和大模型技术发展，具身智能赛道成为如今最火赛道之一；具身智能技术领域具体会涉及到大语言模型（LLM）、视觉多模态模型（VLM）、强化学习（Reinforcement Learning）、深度强化学习（Deep Reinforcement Learning）、模仿学习（Imitation Learning）等诸多前沿技术。人形机器人发展多年，从最初基于模型的控制算法（LIPM+ZMP），到动态模型控制和最优控制算法（MPC+WBC），到如今的模拟+强化学习（IL+RL），当然现阶段也有不少人形机器人公司采用MPC方式，各类算法没有绝对的替代关系，各有优劣；IL+RL是目前人形机器人公司最常提起的概念，基本都是高校和头部科技大厂内研发机构在研究，也是为什么目前人形机器人初创公司以"学院派" ...

人形机器人「通用临界点」：当灵巧手握住万亿市场

3 6 Ke· 2025-06-30 06:21

过去，灵巧手更多是实验室中的符号——高自由度、仿生结构、极高成本；而如今，伴随软硬协同能力的提升、控制算法的不断演进、触觉与多模态感知的加速融合，灵巧手正逐步从科研走向应用的临界点。一方面，它是工业自动化对"异形抓取""多任务执行"能力的新需求延伸；另一方面，它也是服务机器人在家庭、医疗、养老等场景中迈向"真实可用"的关键一环。当AI从云端走向实体，具身智能正逐渐成为通往下一代通用人工智能的关键路径。在这一演进过程中，灵巧手作为"通用机器人"实现复杂操作与自然交互的核心执行器，正迎来前所未有的技术突破与商业想象空间。值得注意的是，这一领域正快速演变为全球技术博弈与资本布局的热点。从Shadow Robot与DeepMind合作攻克多任务抓取，到中国本土初创企业灵心巧手凭借超高自由度结构在仿生手赛道突围，一批聚焦结构创新、感知控制一体化的新兴力量，正在不断刷新我们对"灵巧"这一词的理解。我们希望通过本报告，为关注具身智能、机器人末端执行器、智能制造升级的产业人士与投资机构，提供一份具备前瞻视角与产业落点的深度参考。本篇报告将围绕以下三大维度系统展开：产业定义与技术演进应用场景与商业趋势竞争 ...