Workflow
强化学习
icon
Search documents
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
量子位· 2025-08-26 04:36
一水 发自 凹非寺 量子位 | 公众号 QbitAI 小扎在这头疯狂挖人,结果家里的老员工纷纷跑路了?? 最新消息, Meta万引强化学习大佬Rishabh Agarwal 即将离职,还留下了一篇让人浮想联翩的小作文: 这是我在Meta的最后一周。 决定不加入新的超级智能实验室并不容易,毕竟那里人才济济、算力爆棚。但在Google Brain、DeepMind和Meta度过了7年半之后, 我更想冒险去尝试一条完全不同的路。 Meta组建超级智能团队的想法非常引人注目,但我最终选择听从扎克伯格的建议:"在这个瞬息万变的世界里,最大的风险就是不去冒 险。" 曾被Hinton劝退"不要做强化学习",下一站未定 Rishabh Agarwals,一直以来从事强化学习和推理研究,谷歌学术论文被上万次引用,h-index也有34。 虽然表面上看起来双方是"和平分手",但网友们还是从中嗅出了一丝不同寻常的味道: 把小扎的原话甩回他自己脸上,这操作绝了,瑞思拜! 十亿可以为你买一栋房子,但买不到你的梦想。 不过猜测也好,吐槽也罢。对于Rishabh Agarwal的离职,谷歌、Meta的同事们都清一色地送上了祝福,而且还顺带 ...
最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室
量子位· 2025-08-25 23:05
Mobile-Agen团队 投稿 量子位 | 公众号 QbitAI 能自动操作手机、电脑的智能体新SOTA来了。 通义实验室 推出 Mobile-Agent-v3 智能体框架,在手机端和电脑端的多个核心榜单上均取得开源最佳。 它不仅能做交互界面的问答、描述、定位,也能一条指令独立完成复杂任务,甚至可以在多智能体框架中无缝扮演不同角色。 PC+Web演示:在Edge浏览器中搜索阿里巴巴的股价。然后在WPS中创建一个新表格,在第一列填写公司名称,在第二列填写股价。 PC演示: 创建一个新的空白演示文稿,然后在第一张幻灯片中以艺术字的形式插入一段文本,内容为"阿里巴巴"。 它既能独当一面,在 AndroidWorld、OSWorld、ScreenSpot等10个主流GUI榜单 中均取得了开源SOTA的水平;也能承担对话、问答、 定位、界面描述等基础任务。 Web演示: 去哔哩哔哩看雷军的视频,然后给第一个视频点赞。 手机演示: 请帮我在小红书上搜索济南旅游攻略,按收藏数排序,并保存第一条笔记。 请帮我在携程上查询济南大明湖风景区的详细信息,包括地址、票价等。 自动化操作手机、电脑成为了各家多模态大模型攻坚的主战场。 ...
VLA/强化学习/VLN方向1v1论文辅导~
具身智能之心· 2025-08-25 06:00
主要会议:CVPR、ICCV、ECCV、ICLR、CoRL、ICML、ICRA等; 辅导老师:积极活跃在具身学术领域,有idea。 感兴趣的同学可以添加微信oooops-life咨询,或者直接扫码,备注具身论文辅导咨询。 具身智能之心1v1论文辅导来啦!现在有3个vla、强化学习、sim2real方向的名额,主要面向A会和B会。 ...
自动驾驶转具身智能有哪些切入点?
自动驾驶之心· 2025-08-24 23:32
如果您真的需要,可以关注下我们的公众号,助力学习少踩坑。 这几天很多同学后台私信我们,自动驾驶如何转具身智能?会不会有比较大的gap。从算法维度上看,具身 智能领域基本延续了机器人和自驾的一些算法,比如训练与微调方式、大模型。当然也有很多具体的任务 不太一样,比如数据采集方式、重执行硬件与结构。 我们也创办了一个具身智能全栈学习社区:具身智能之心,平时分享了很多具身智能相关的算法、数据采 集、软硬件方案等。主要方向涉及VLA、VLN、Diffusion Policy、强化学习、机械臂抓取、位姿估计、机 器人仿真、多模态大模型、芯片部署、sim2real、机器人硬件结构等,日常也分享了很多行业与招聘相关内 容。 ...
重磅!浙大最新综述,解码40+年足式机器人技术演进与未来挑战
机器人大讲堂· 2025-08-24 13:15
近日, 浙江大学流体动力与机电系统国家重点实验室 的研究团队在国际期刊《 Cyborg and Bionic Systems 》上发表一篇系统性综述论文,全面梳理单腿机器人在结构设计、建模方法与控制策略等核心领域 的发展演进与未来挑战。 论文名为《 Bridging the Gap to Bionic Motion: Challenges in Legged Robot Limb Units Design, Modeling, and Control 》, 由中国工程院院士领衔的研究团队撰写,系统探讨了实现 "仿生运动"的关键 路径 ,为理解 "让机器人像生物一样灵活行走"这一根本性难题提供了新的思路。 该研究的独特价值在于:它 不仅追溯了四十多年来从简单伸缩结构到复杂关节系统的演化历程,更重要的是 揭示单腿机器人作为多腿机器人 "基本单元"的科学意义 ——通过在简化系统复杂度的前提下聚焦腿足运动本 质,为波士顿动力 Spot 、云深处绝影等商业化四足机器人的成功奠定了理论基础。 文章链接: https://spj.science.org/doi/10.34133/cbsystems.0365 ▍ 为什么要从 ...
在OpenAI炼Agent一年半,回国做出首个开源Agent训练框架!这个30岁清华天才却说:创业不是技术命
AI前线· 2025-08-23 05:32
姚班、伯克利、OpenAI、清华……年仅 30 多岁的吴翼身上已经聚集了众多亮眼的标签。 从小到大,似乎无论在哪个阶段、哪个领域,吴翼都可以交出一份不错的答卷:他是 ACM 世界奖牌得主,也是带队冲击 IOI 的教练;他亲历了 Facebook 2012 的崛起、字节跳动 2016–2018 的飞速成长,以及 OpenAI 爆火前的关键时期;他也自己参与了创业、全力做着开源项目。 吴翼创立的边塞科技在 2024 年被蚂蚁收购,团队积累 4 年的规模化强化学习成果如今都积累到了开源项目 AReaL 中,这是一个专为大型推理模型设 计的完全异步的强化学习训练框架。目前在在 Github 上已收获 2.4k stars。AReaL 完全围绕 Agent 打造。谈及定位,吴翼直言:"按照这个定位我们没 有竞品"。 在 10 月 23 日 -25 日的 QCon 上海站,吴翼将分享主题为《智能体时代的强化学习:AReaL 框架与 Agent 最佳实践》的演讲。在此之前,我们对吴翼 进行了一次采访,他详细阐述了自己求学、OpenAI 工作和创业的经历和感受。主要观点如下: 在 OpenAI,我学会了 编辑 | Tina、 ...
又帮到了一位同学拿到了VLA算法岗......
具身智能之心· 2025-08-22 16:03
昨天下午有个小朋友,底子还不错,C9即将研三。正在秋招,来找峰哥诉苦,同门找到了VLA算法岗位 (一个特别有钱的具身公司),我想转来不及了......刚开始都是一起做的传统机器人,SLAM相关。后面不 知道他做了什么项目,进度这么快,面试几家都过了。 这两天同门才刚给我推荐你们社区,体系很完整, 就怕有点晚了。 8月份,陆续有同学找到峰哥,不是拿到口头offer,就是想转具身担心来不及。虽然秋招将近, 但还是那 句话,"什么时候都不算太晚。" 尽快把完整的具身路线补齐才是重中之重,特别是数采和算法、仿真等。 如果你没有较强独立学习和搜索问题的能力,可以来我们的具身社区,也是目前国内最大最全的具身学习 平台【具身智能之心】知识星球。 "具身智能之心知识星球"目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的具身社 区,近2000人了。我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是许 多初学者和进阶的同学经常逛的地方。 社区内部还经常为大家解答各类实用问题:如何使用设备?如何有效采集数据?如何部署VA、VLA模型 等。是采集背景太复杂还是数据比较dirt ...
用三组关键词囊括所有看好理想人士近期对理想的观点
理想TOP2· 2025-08-22 13:29
VC还是PE心态看理想/物理AI/对组织力的怀疑与批评可以囊括所有看好理想人士近期对理想的观 点。 每一个具体的人,实际都是同时具备VC心态与PE心态的,只是说不同时刻占比不同。 VC还是PE心态看理想 VC心态: 1.更长周期看理想(比如3年5年以上周期) 3.能接受理想说不清楚靠AI长期而言如何收费,更多取决于认为这东西底层对世界的改变有多深刻, 创造价值的潜力有多大。 4.高容忍度,能接受理想实现长期目标过程中多次犯错,多次判断错误,多次说到没做到。 PE心态: 1. 较VC心态明显更短周期看理想(比如一年以内或几个月以内) 2.从务实的层面分析理想的价值(比如卖多少车,有多少营收、单车利润、总利润) 3.如果理想说不清楚靠AI如何收费,就直接选择不信 4.低容忍度,不太能接受理想短期多次误判 对同一个事,VC/PE心态视角不同,已知腾讯从QQ起步发展了微信,构建了巨大护城河,靠广告可 以挣不少钱。字节从今日头条起步发展了抖音/tiktok,靠广告可以挣不少钱。乔布斯2.0时代的苹果从 iPod起步发展了iPhone,谷歌愿意一年给苹果200亿左右美元图默认搜索引擎。 VC心态更愿意从QQ开始,就认为腾 ...
VLA方向的论文还不知怎么下手?有的同学已经CCF-A了......
自动驾驶之心· 2025-08-22 12:00
理想VLA司机大模型已经上车了!从发布会上看,VLA 能力的提升集中体现在三点:更懂语义 (多模态输入)、更擅长推理(思维链)、更接近人类驾驶直觉(轨迹规划)。发布会上展示了 四个核心能力:空间理解能力、思维能力、沟通与记忆能力以及行为能力。 ⼀、VLA科研论文辅导课题来啦⭐ 其中思维能力、沟通与记忆能力是语言模型赋予的能力,其中记忆能力还用到了RAG。下面是理 想VLA司机大模型思维链输出的demo:结合了动态目标、静态元素、导航地图、空间理解等等元 素。毫无疑问,VLA已经是自动驾驶学术界和工业界最为关注的方向。 而VLA是从VLM+E2E一路发展过来的,涵盖了端到端、轨迹预测、视觉语言模型、强化学习等多 个前沿技术栈。。而传统的BEV感知、车道线、Occupancy等工作相对较少出现在顶会了,最近也 有很多同学陆续来咨询柱哥,传统的感知、规划这块还能继续发论文吗?感觉工作都已经被做的 七七八八了,审稿人会打高分吗? 说到传统的感知、规划等任务,工业界都还在继续优化方案!但学术界基本都慢慢转向大模型与 VLA了,这个领域还有很多工作可以做的子领域... 之前我们已经开展了第一期VLA论文指导班,反响很不错 ...
AI已迷失方向?强化学习教父Sutton最新发布OaK架构,挑战当前AI范式,提出超级智能新构想
AI科技大本营· 2025-08-22 08:05
作者 | 理查德·萨顿(Richard Sutton) 2)每一个学习到的权重,都配有一个专门的步长参数,该参数通过在线交叉验证进行元学习; 原标题 | OaK 架构:一个源于经验的超级智能构想 来源 | RLC 2025 会议文章 ( youtu.be/gEbbGyNkR2U ) 编译 | 王启隆 出品丨AI 科技大本营(ID:rgznai100) 随着人工智能发展成为一个庞大的产业,它在很大程度上已经迷失了方向。 我们需要什么才能重回正轨,去探寻真正的智能? 我们需要能够持续学习的智能体、世界模型和规划能力,以及学习高层次知识和通过元学习掌握泛化的能力。 OaK 架构 正是对所有这些需求的一个系统性回应。从整体上看,它是一个基于模型的强化学习架构,并具备三个鲜明特点: 1)其所有组件都能持续学习; 3)状态和时间上的抽象概念,通过一个我们称之为 FC-STOMP 的五步演进路径被持续创造出来,即:特征构建( F eature C onstruction)、 基于特征提出子任务(posing a S ub T ask)、学习一个选项来解决该子任务(learning an O ption)、学习该选项的模型( ...