Workflow
强化学习
icon
Search documents
NeurIPS掀起AI人才争夺战,年薪百万美元起步
日经中文网· 2025-12-17 08:00
Core Insights - The NeurIPS conference has evolved into a significant recruitment platform for AI talent, with approximately 25,000 attendees this year, highlighting the increasing demand for skilled professionals in the AI sector [2][4]. Group 1: Salary Trends - The expected first-year salary for AI professionals has reached $2 million, with starting salaries for in-demand fields like reinforcement learning set at $1 million [2][5]. - Salaries for top researchers in AI are now comparable to those of professional athletes, reflecting the intense competition among companies to attract talent [4][5]. Group 2: Recruitment Landscape - Around 150 sponsoring companies participated in the conference, all aiming to recruit exceptional talent for their AI research and development departments [4]. - Major tech companies, hedge funds, and investment firms are competing for AI talent, with firms like Citadel and DE Shaw offering competitive cash salaries, sometimes exceeding $1 million [5]. Group 3: International Participation - Chinese companies such as ByteDance and Alibaba participated in the conference, indicating a strong interest in AI talent, while Japanese companies had a less prominent presence [6]. - Many AI researchers in the U.S. are from China, as evidenced by the prevalence of Chinese language at the event [5].
最近收到了很多同学关于具身方向选择的咨询......
具身智能之心· 2025-12-17 00:05
【具身智能之心论文辅导重磅上线!多模态大模型/VLA/强化学习/VLN/遥操作/数采/机器人仿 真/real2sim2real/端到端/diffusion等顶会方向1V1定制化辅导】 辅导区间 CCF-A到CCF-C 先看看具身的一些方向,vln、vla、强化、还有一些real2sim2real。很多小白不知道如何下手,选择强化学 习还是vla?传统slam还是vln?哪些方向需要较大算力,哪些不需要?除此之外,什么样的本体适合自己研 究,预算不够怎么办?仿真可以吗? 对正在从事slam的同学,vln和vla都是一个比较好的切入方向。如果有机械臂,展开vla是一个不错的选择。 除此之外,没有硬件的同学可以尽量在仿真里面或者使用低成本的so-100等硬件完成实验。也有很多低成 本的科研平台,比如移动操作平台。四足和人形更适合强化,vla难度过高。 剩下就是一些方法论的问题了,有好的idea至关重要。对很多新人研究者,一个好的idea需要踩很多次坑。 如果你还是新人,不知道怎么入门,可以看看我们推出的论文辅导。 论文辅导上线了 最近收到很多小伙伴的咨询,其中不乏大模型、传统机器人、机械方向的同学。 ✅ 顶会/顶刊 ...
PPO-Clip的「盲点」被补齐了?快手提出熵比裁剪方法,从局部约束到全局稳定的关键一跃
机器之心· 2025-12-16 10:22
本研究由快手科技语言大模型团队完成,核心作者苏振鹏,潘雷宇等。快手语言大模型团队聚焦在基础语言大模型研发、Agent RL 等前沿技术创新等方向,积累务实的探索 AGI 的能力边界,并不断推进 AI 领域新技术和新产品的发展。此前,该团队已 开源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在数学和代码的基准测试上达到了同参数级别 模型的 SOTA 效果。 在大语言模型的后训练阶段,强化学习已成为提升模型能力和对齐质量的核心范式。然而,在广泛采用的 off-policy 的训练范式 中,更新当前策略的数据由旧的行为策略生成,导致分布漂移的问题的发生,这通常会将策略推至信任域之外,使强化学习的 训练变得不稳定。 尽管 PPO 通过重要性采样的裁剪机制缓解了部分问题,但它仅能约束已采样动作的概率变化,忽略了未采样动作的全局分布漂 移。为了应对这些挑战,快手研究团队提出了一种创新的熵比裁剪方法。该方法从全新的视角切入,通过约束策略熵的相对变 化来稳定全局分布,为强化学习训练提供了更加可靠的控制手段。 研究背景 强化学习训练过程中长期面临 ...
许华哲,抓紧时间慢慢等具身的未来......
具身智能之心· 2025-12-16 00:02
作者丨 许华哲 编辑丨具身智能之心 本文已经得到许华哲博士的授权,未经允许,不得二次转载。 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 昨天看到了许华哲老师在社交媒体上的分享,关于数据、量产、本体和场景。类似的观点,今年IROS圆桌期间,许博也站在智能第一性原理上,将具身的未来发展 方向划分为欲望、先验和经验三个模块。 欲望。 在做智能体的时候,无论是物理的还是虚拟的,总觉得现在机器学习没有自己的学习欲望。我们可以设想一下,能不能给机器人一种自己的欲望? 经验。 经验是完成世界最终闭环的一种手段。有一天,在家里面看到一位维修师傅就是帮我们修煤气灶,他踩在一个梯子上拧一个东西,整个身体造型极为扭曲, 但他仍可以完美控制重心保持平衡,并且手上还可以做非常精细的操作。 ★ 这种思想也贯穿在后续的研发和学术探索上。 回想起几年前,我们还在讨论机器人什么时候能全地形走路,后来发现这个话题变成了"跑酷"、"跳舞"、"篮球"。这个变化速率让我知道这个事儿已经成了,如果 明年可以攀岩我并不吃惊。 但这极快的变化速率又显得格外不协调,因为我没在任何地方看到人形机器人真正服务人 ...
我和辛顿一起发明了复杂神经网络,但它现在需要升级
3 6 Ke· 2025-12-14 23:26
而83岁的谢诺夫斯基,依然在实验室里追问那个问题。 也许没有人比他更适合回答今天AI缺失的那些碎片。他见证了神经网络从"异端"到"改变世界"的全过 程;他既懂物理学的简洁优雅,也懂生物学的复杂混沌;他和辛顿一起打开了AI的大门,又眼看着这 扇门后的世界变得越来越陌生。 1984年的一天,物理学家特伦斯·谢诺夫斯基和心理学家杰弗里·辛顿坐在实验室里,盯着黑板上的方程 发呆。那是AI的第二个寒冬,神经网络陷入僵局。人们都知道多层网络更强大,但没人知道怎么训练 它。 "如果我们把神经网络想象成一团气体呢?"谢诺夫斯基突然说。 这个疯狂的想法最终变成了玻尔兹曼机,这是一个用统计物理学重新定义"学习"的数学模型。它证明了 只要找到合适的能量函数,神经网络就能像气体从高温降到低温一样,自发地调整到最优状态。 这成为现代深度学习的理论基石之一。 但两人后续的志趣却互相有所偏离。辛顿发现了更实用的反向传播算法,带领深度学习走出寒冬,最终 迎来ChatGPT主导的AI时代。而谢诺夫斯基选择了回到神经科学实验室,用几十年时间解剖大脑的每一 个回路,试图回答那个最初的问题:大脑究竟是如何工作的? 40年后,辛顿因玻尔兹曼机获得20 ...
自动驾驶之心在招募业务合伙人!
自动驾驶之心· 2025-12-14 02:03
联系我们 作为国内自动驾驶领域创作的技术平台,我们期望能够在这波激流中贡献自己的力量,成为一个真的能 给行业带来价值的平台。 众人拾柴火焰高,我们需要更多优秀的伙伴加入我们。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 岗位说明 大家好,我是柱哥。最近收到很多小伙伴的咨询和求助,希望我们能够联系更多的技术专家分享业内最 新的动态和观点。自动驾驶已经进入下半场,行业的难点和痛点需要更多有志之士参与进来一起突破。 后面我们将陆续为大家增加圆桌访谈、实战&工业级课程、咨询等各类输出。 主要面向自动驾驶培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多学生、求职类人 群)、课程开发和原创文章创作。 主要方向 包括但不限于:自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学 习、端到端等多个方向。 待遇与合作方式,欢迎添加微信wenyirumo做进一步沟通。 ...
2025年还存活的自动驾驶公司......
自动驾驶之心· 2025-12-14 02:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 近期一个比较明显的信号,L2渗透率狂奔,L3落地在即,L4规模破局。智能驾驶学术界和工业 界关注一直都很多,像端到端、VLA、世界模型、强化学习等等技术方向都还在快速发展。秋 招期间也有很多小伙伴咨询我们业内都有哪些公司,秋招打算看一看。 相比于前两年,有一些公司已经谢幕,有一些公司在合并/收购的路上,当然也有一些新势力异 军突起。自动驾驶行业正在经历新一轮的洗牌和资源整合。今天自动驾驶之心就为大家全面梳 理下2025年智能驾驶相关的公司,有新势力、主机厂、重卡、Robotaxi、Tier1等等,为大家带 来行业的全景图,助力大家选择。 看到这里,25年智能驾驶的落地情况如何?明年的趋势在哪里? 自动之心也为大家做了一次调 研,已经放到我们的专业社区内,欢迎加入交流。 1 新势力 蔚来、小鹏、理想、小米、零跑、滴滴、威马、牛创、极氪、阿维塔、岚图、千里科技、极越等 Tier 1 2 华为、百度、大疆、中兴、腾讯(智能座舱/高精地图/仿真工具链)、上汽零速、鉴智机器人、 momenta、博世中国、麦格纳、佑驾创 ...
军事医学研究院论文登上Cell头条
生物世界· 2025-12-13 10:00
撰文丨王聪 编辑丨王多鱼 排版丨水成文 近日, 军事医学研究院 的一项新研究登上了 Cell Press 头条。 该论文以: Computational modeling reveals cognitive processes in simple rodent depression tests 为题,于 2025 年 12 月 2 日在线发表于 Cell 子刊 Cell Reports Methods 上, 军事医学研究院 李至涵 为论文第一作者兼共同通讯作者, 李云峰 为论文通讯作者。该 研究通过结合自动化行为追踪和计算建 模,首次系统揭示了简单抑郁行为测试中隐藏的复杂认知过程,为理解抑郁样行为的认知机制提供了新视 角 总的来说,这项研究通过结合自动化行为追踪和计算建模,首次系统揭示了简单抑郁行为测试中隐藏的复 杂认知过程,为理解抑郁样行为的认知机制提供了新视角,并强调了分析完整行为轨迹的重要性。 这些发现挑战了当前对抑郁行为测试的传统理解,为未来开发更精确的动物行为分析方法和抗抑郁治疗策 略提供了重要理论基础。 论文链接 : https://www.cell.com /cell-reports-metho ...
南洋理工&哈佛提出OpenREAD:端到端RL统一认知与轨迹规划
自动驾驶之心· 2025-12-13 02:04
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 深蓝学院 来源 | 深蓝AI 原文链接: 南洋理工、哈佛提出OpenREAD:用端到端RL统一驾驶认知与轨迹规划 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 让视觉语言大模型 同时学会 " 思考 " 与 " 执行 " 」 在自动驾驶研究中,利用大语言视觉语言模型(LLMNLM)学习开放式驾驶知识,进而提升轨迹规划与决策能力,正逐渐成为新的趋势。 然而,传统的监督微调(SFT)范式难以充分挖掘模型的推理潜力,对知识的学习效率也存在不足。DeepSeek-R1的出现向我们展示了强化学习在提升模 型推理与思考能力方面的巨大潜力,使模型具备更强的泛化表现。 因此,一个关键问题随之而来:如何通过强化学习增强视觉语言模型的推理能力,让模型"学会思考",并在同一框架下同时掌握开放式驾驶知识与轨迹规 划?这正是基于视觉语言大模型实现端到端自动驾驶所面临的全新挑战。 南洋理 ...
苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣
机器之心· 2025-12-13 01:13
Core Viewpoint - The article discusses Apple's recently withdrawn paper on a scalable reinforcement learning framework called RLAX, which utilizes Google's TPU and other cloud services, highlighting the company's engineering capabilities in AI infrastructure despite recent personnel changes [1][35]. Group 1: Paper Overview - The paper titled "RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs" was submitted on December 6 and quickly withdrawn after being made public [1][7]. - RLAX is designed for efficient execution of advanced reinforcement learning algorithms on large-scale distributed TPU clusters [12]. Group 2: Technical Contributions - RLAX employs a parameter-server architecture, allowing for logical separation of training, inference, and validation components, which enhances resource allocation flexibility [14]. - The framework supports preemptive scheduling, enabling immediate resource recovery for higher-priority tasks without crashing the training process [15]. - RLAX addresses key challenges in post-training reinforcement learning, offering programmable configuration options for managing on-policy and off-policy RL [16]. Group 3: Experimental Results - During experiments, RLAX improved the pass@8 accuracy of the QwQ-32B model by 12.8% in just 12 hours and 48 minutes using 1024 TPU v5p [24]. - The framework's development involved using Google's TPU, Amazon's AWS Lambda for testing, and a Chinese open-source model, showcasing a collaborative approach across different technologies [26]. Group 4: Author Background - The paper lists several authors, including Kelvin Zou, who has transitioned to Meta, and Cheng Leong, a long-time Apple employee, indicating a shift in talent within the AI sector [8][9].