强化学习 - filings, earnings calls, financial reports, news

强化学习

Search documents

具身智能之心· 2025-06-30 03:47

在近20年AI发展的路线上，我们正站在⼀个前所未有的转折点。从早期的符号推理到深度学习的突破，再到如今⼤语⾔模型的惊艳表现， AI 技术的每⼀次⻜跃都在重新定义着⼈类与机器的关系。⽽如今，具身智能正在全面崛起。想象⼀下这样的场景：⼀个机器⼈不仅能够理解你的语⾔指令，还能在复杂的现实环境中灵活移动，精确操作各种物体，甚⾄在⾯对突发情况时做出智能决策。这不再是科幻电影中的幻想，⽽是正在快速成为现实的技术⾰命。从Tesla的Optimus⼈形机器⼈到Boston Dynamics的Atlas，从OpenAI的机械⼿到Google的RT-X项⽬，全球顶尖的科技公司都在竞相布局这⼀颠覆性领域。具身智能的核⼼理念在于让AI系统不仅拥有"⼤脑"，更要拥有能够感知和改变物理世界的"身体"。这种AI不再局限于虚拟的数字空间，⽽是能够真正理解物理定律、掌握运动技能、适应复杂环境。它们可以在⼯⼚中进⾏精密装配，在医院⾥协助⼿术操作，在家庭中提供贴⼼服务，在危险环境中执⾏救援任务。这种技术的潜在影响⼒是⾰命性的：它将彻底改变制造业、服务业、医疗健康、太空探索等⼏乎所有⾏业。从顶级会议ICRA 、IROS到Neu ...

CVPR2025 WAD纯视觉端到端 | 冠军方案技术报告~

自动驾驶之心· 2025-06-29 11:33

作者 | Zh.ai 编辑 | 自动驾驶之心原文链接： https://zhuanlan.zhihu.com/p/1920858767987308475 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文 WAD前五名纯视觉端到端驾驶比赛前五名，第一名Poutine（截至2025.6.25）技术报告：比赛第一名方案： Poutine Vision-Language-Trajectory Pre-Training and Reinforcement Learning Post-Training Enable Robust End- to-End Autonomous Driving 技术摘要： 1. 主体是3B参数VLM，解决视觉端到端自动驾驶长尾场景；大模型预刷生产annotations 2. 两阶段训练：技术方案： a. 阶段一预训练。自监督，vision- language- trajectory，next-token prediction方式，训练数据8 ...

Qwen2.5-VL 72B Instruct模型

Qwen2.5-VL 72B Instruct模型

Poutine方案

港科大 | LiDAR端到端四足机器人全向避障系统 (宇树G1/Go2+PPO)

具身智能之心· 2025-06-29 09:51

以下文章来源于具身智能研究室，作者Yuanxq 具身智能研究室 . 分享一些深度强化学习、多/单智能体、具身智能的相关知识。有缘更新，随缘关注。希望大家互相学习补充。作者丨 Yuanxq 编辑丨具身智能研究室点击下方卡片，关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。在复杂动态环境中实现四足机器人的安全高效移动，一直是机器人领域的核心挑战。传统方法依赖深度相机或中间地图表示，难以应对三维空间中的非平面障碍、空中杂波及动态物体。香港科技大学团队提出 Omni-Perception 框架，通过直接处理原始 LiDAR 点云数据，实现了端到端的四足机器人全向避障能力。通过高保真 LiDAR 仿真工具和新型 PD-RiskNet 网络架构，推动了机器人在复杂三维环境中的自主导航技术。 1 、从 LiDAR 点云到全向避障的端到端设计框架 1.Omni-Perception 的核心架构解析感知-控制一体化设计优势：时空信息直接利用：避免了点云到网格 ...

中科院自动化所最新综述！VLA模型后训练与类人运动学习的共性

具身智能之心· 2025-06-29 09:51

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Tian-Yu Xiang等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。想象学习走路的情景：尽管祖先的经验让一些与生俱来的能力（例如：平衡感、反应）被编码到我们的 DNA中，但要真正学会走路，仍需要在真实环境中不断练习、摔倒、再爬起。经过一段时间的训练，我们的大脑和身体会逐渐协调一致，形成与环境交互的策略。这种由通用能力到特定技能的转变过程在人类中十分常见，而如今，智能机器人也面临着类似的挑战：即便拥有强大的预训练模型作为"大脑"，在执行具体复杂任务前，仍需要经过类似于人类学习的"后训练"阶段，才能在新环境、新任务下达到理想表现。 1. 概述这项工作从人类运动技能学习的角度系统性地对总结 VLA模型（视觉-语言-动作模型）的后训练（post- training）策略。其主要贡献如下： (1) 从人类运动学习视角讨论了VLA模型后训练方法：将人类运动技能 ...

盘一盘，2017年Transformer之后，LLM领域的重要论文

机器之心· 2025-06-29 04:23

机器之心报道机器之心编辑部这两天 Andrej Karpathy 的最新演讲在 AI 社区引发了热烈讨论，他提出了「软件 3.0」的概念，自然语言正在成为新的编程接口，而 AI 模型负责执行具体任务。 Karpathy 深入探讨了这一变革对开发者、用户以及软件设计理念的深远影响。他认为，我们不只是在使用新工具，更是在构建一种全新的计算范式。回顾 LLM 的发展历程：自 2017 年 Transformer 架构问世以来，我们见证了 GPT 系列的一路高歌猛进，以及多模态能力和端侧应用的全面开花。整个领域正以前所未有的速度演进。要深入理解这场变革的本质，我们需要回到技术的源头。那些奠定今天 AI 能力的关键论文，不仅记录着算法的演进轨迹，更揭示了从传统编程到自然语言交互这一范式转变的内在逻辑。此前我们通过 50 个核心问题回顾了 LLM 的基础概念。今天，我们将梳理自 2017 年以来 LLM 领域的重要论文。本文从 X 用户 Pramod Goyal 的论文盘点中精选了 22 篇进行详细介绍，其余论文将在文末列出供读者参考。奠基理论 Attention Is All You Need ...

从后训练回到预训练，LLM+RL 的潜力兑现有有机会走更远吗？

机器之心· 2025-06-28 05:22

都是 NPT，用 RL 做预训练的潜力更大吗？为什么强化学习里很少有预训练模型？最流行的 RL 范式有何理论缺陷？已有成效的后训练 RL 实现存在什么问题？ 2. 硅谷 AI Leaders 近期「暴论」大盘点！ 1.从后训练回到预训练，LLM+RL 的潜力兑现有有机会走更远吗？未来订阅 ChatGPT 就送人形机器人？AGI 为什么可能永远无法实现？为什么 AI 比程序员更显性价比？行业大模型真的没必要吗？做好研究不如写好推文？OpenAI 和 Nvidia 的「AI 工厂」有何区别？本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递，其中技术方面 11 项，国内方面 9 项，国外方面 9 项。本期通讯总计 23143 字，可免费试读至 9% 机器之心PRO · 会员通讯 Week 26 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- ① LLM 预训练对监督数据的需求趋于无穷，且需要覆盖尽可能所有遇到的问题，同时要求监督信号必须准确无误，从而保证模型正确性。 ② 两项要求在现实中均难以实现，原因在于高质量人类标注数据 ...

强化学习

大语言模型（LLM）

NTP（下个词元预测）

Reinforcement Pre - Training（RPT）

Reinforcement Pre - Training（RPT）

人工智能

ChatGPT

OpenAI 4 名王牌研究员“叛变”，Meta 上亿美元的签约奖金终于花出去了

AI前线· 2025-06-28 05:13

整理 | 华卫近日，据外媒报道，Meta 平台公司已招募四名前 OpenAI 研究人员加入其新成立的超级智能实验室。消息称，此次招聘对象包括 2022 年加入 ChatGPT 开发团队的特拉皮特·班萨尔（Trapit Bansal）。据悉，他在启动 OpenAI 强化学习项目中发挥了关键作用。强化学习作为一种 AI 训练方法，适用于构建推理模型。另外三名已加入 Meta 的 OpenAI 研究人员分别是卢卡斯·拜尔（Lucas Beyer）、亚历山大·科列斯尼科夫（Alexander Kolesnikov）和翟晓华（Xiaohua Zhai）。据了解，这三人曾于去年底协助建立 OpenAI 苏黎世办公室，此前他们在谷歌母公司 Alphabet 旗下的 DeepMind 机器学习实验室工作。此次招聘发生在 Meta 首次披露组建超级智能研究团队的数周后。该实验室将负责开发能在广泛任务中超越人类表现的 AI 模型。据悉，Meta 成立该部门的背景是其内部开发的大型语言模型 Llama 4 Behemoth 面临性能问题——该模型于今年早些时候预览，但因性能担忧已推迟发布。上周，OpenAI 透 ...

Meta Platforms(US:META)

Artificial Intelligence

强化学习

Artificial Intelligence

ChatGPT

Llama 4 Behemoth

Play AI 3.0 mini

Artificial Intelligence

强化学习

Artificial Intelligence

猿大侠· 2025-06-27 14:57

Core Viewpoint - The release of DeepSeek-R2 has been delayed due to CEO Liang Wenfeng's dissatisfaction with its performance and a shortage of Nvidia H20 chips, which are critical for its development [1][2][4]. Group 1: Development Timeline - The anticipation for R2 began after the release of the DeepSeek-V3 model in December last year, which was considered a benchmark for cost-performance [5]. - Initial expectations suggested that R2 would be launched in April, following the upgrade of V3 on March 24 [11]. - Despite the release of a paper on inference scaling in April, there has been no official update on R2's launch [12][16]. Group 2: Technical Specifications - R1's training utilized 30,000 H20 chips, 10,000 H800 chips, and 10,000 H100 chips, indicating the significant computational resources required for R2 [3]. - Leaked parameters for R2 suggested it would have 1.2 trillion parameters and utilize 5.2 petabytes of training data, raising questions about its hardware requirements [17]. Group 3: Community Reactions - Following the news of the delay, community responses varied, with some expressing belief that the delay would be worthwhile, while others speculated that R2 might wait for the release of V4 [26][28].

在线强化学习（RL）

推理时扩展

Artificial Intelligence

Artificial Intelligence

DeepSeek-R2

DeepSeek-V3

DeepSeek-R1

肖仰华教授：具身智能距离“涌现”还有多远？

3 6 Ke· 2025-06-27 11:30

以生成式AI为代表的新技术浪潮日新月异，正带来一场深刻的技术、商业与社会变革，推动人类社会从信息社会向智能社会转变。全世界热切期待AI到来的同时，也非常关心人工智能将带来哪些新机遇、新挑战。为此，我们发起了一项《AI & Society 百人百问》研讨，广泛邀请AI技术大咖、AI独角兽创始人、AI投资人，以及社会学家、心理学家、国际关系专家、科幻作家等，用多元视角，深入研讨人工智能技术引发的广泛影响，发掘AI时代的共识和非共识，共同推动人工智能始终朝着"助人发展，与人为善"的方向可持续发展。 4.我们业界一直有一个基本的观点就是模型算法或架构是模型的下限，而数据决定模型的上限。从行业来看，央国企等大甲方的主要职责是要能够把自己行业数据整理好和清洗好，这是发展行业AI的关键。 5.具身智能ToC端的应用的核心是感性能力，如果将来机器人真的要走进千家万户，它必须要能够跟我们共情，能够理解我的情感诉求，才有可能真正在 ToC 应用当中发挥作用。 6.某种程度上，我们今天采集的数据离具身智能涌现出泛化性所需达到的临界点，还相差非常大的数量级，相较于语言大模型可能不止两三个数量级的差别。促进具身智能 ...

OpenAI连丢4位大将！Ilya合作者/o1核心贡献者加入Meta，苏黎世三人组回应跳槽：集体做出的选择

量子位· 2025-06-27 08:09

梦晨发自凹非寺量子位 | 公众号 QbitAI 扎克伯格未免有点太针对奥特曼了！又有OpenAI核心研究员被挖走，而且做的是最前沿推理大模型。最新跳槽到Meta的是 Trapit Bansal ，他在2022年加入OpemnAI，曾与Ilya合作，在大模型强化学习研究的启动过程中发挥了关键作用，也被列为 o1的核心贡献者。 △ Trapit Bansal 加入Meta后，Trapit Bansal在新成立的超级智能部门继续研究推理大模型。 Trapit Bansal博士毕业于马萨诸塞大学阿默斯特分校。毕业后他加入OpenAI，与Ilya合作启动了强化学习在推理大模型上的研究。目前他在谷歌学术上有2800+被引用数量，多篇论文与Ilya合著。读博期间他就在OpenAI实习过，参与了多智能体强化学习研究：通过自我对弈让AI发现新的技能，无需专门为这些技能设计奖励。 | Trapit Bansal | | FOLLOW | | GET MY OWN PROFILE | | | --- | --- | --- | --- | --- | --- | | OpenAl | | | | | | | ...

Meta Platforms(US:META)

多模态

强化学习

Artificial Intelligence

Artificial Intelligence

ViT架构

语音Agent

Previous Next