Workflow
强化学习
icon
Search documents
梁文锋和杨植麟再“撞车”
虎嗅APP· 2025-05-04 08:29
以下文章来源于中国企业家杂志 ,作者闫俊文 中国企业家杂志 . 讲好企业家故事,弘扬企业家精神 本文来自微信公众号: 中国企业家杂志 (ID:iceo-com-cn) ,作者:闫俊文,编辑:张晓迪,题图来自: AI生成 继2月论文"撞车"之后,梁文锋和杨植麟又在另一个大模型赛道上相遇了。 4月30日,DeepSeek上线新模型DeepSeek-Prover-V2,这是一个数学定理证明专用模型。 Prover-V2的参数规模进一步扩展到671B (6710亿规模参数) ,相较于前一代V1.5版本的7B规模增加了近 百倍 ,这让其在数学测试集上的效率和正确率更高,比如,该模型的miniF2F测试通过率达到88.9%,它还 解决了PutnamBench (普特南测试) 的49道题。 巧合的是, 4月中旬,月之暗面也曾推出一款用于形式化定理证明的大模型Kimina-Prover ,这是Kimi团队 和Numina共同研发的大模型,该产品也开源了1.5B和7B参数的模型蒸馏版本。该模型的miniF2F测试通过率 为80.7%,PutnamBench测试成绩为10道题。 两者相比较,在miniF2F测试通过率以及普特南测 ...
机器人领域新突破!顶刊《IJRR》近期重磅论文概述
机器人大讲堂· 2025-05-03 08:04
《 International Journal of Robotics Research 》 (简称IJRR) 创刊于 1982 年,是第一本有关机器 人研究的学术出版物,也是当今 机器人学领域的顶刊 。 IJRR 致力于提供领域内杰出学者针对突破性前沿 问题、技术发展和机器人学理论等方面研究撰写的开创性原创论文。惠及应用数学、人工智能、计算机科 学,电气和机械工程等多个领域。本文对IJRR上 近期发表的 七篇精 选论文 进行了综述,涵盖 软体驱动 器、人机交互、机器人操作、双臂机器人、多机器人系统、人机协作、双足机器人运动控制等 多个研究方 向。 原论文相关信息 在文章末尾。 ▍ 新型低型软体旋转气动执行器设计与分析 成均馆大学 的研究团队在 《 A new design and analysis of low-profile soft rotary pneumatic actuator for enhanced rotation and torque 》 一文中提出了一种新型低型软体旋转气动执行器。随着 模仿人类肌肉动作需求的增加,软体驱动器在抓取、可穿戴设备和生物医用装置等领域获得了广泛关注。 研 究背 ...
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
量子位· 2025-05-03 04:05
于恩 投稿 量子位 | 公众号 QbitAI 超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的 纯多模态开源LLM 来啦! 华中科技大学、北京邮电大学等多所高校研究团队共同推出的 Perception-R1 (PR1) ,在视觉推理中最基础的感知层面,探究rule- based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的 纯视觉 (计数,通用目标检测) 以及 视觉语言 (grounding,OCR) 任务,实验结果展现出在模型感知策略上 的巨大潜力。 然而,在识别物体和真正以细致入微的理解和逻辑感知视觉世界之间存在微妙的差异。虽然MLLM在一般的视觉问答方面越来越出色,但它们 在需要精确物体定位、准确计数多个物体、在复杂布局中完美阅读文本或执行复杂视觉推理的任务上常常表现不佳。这就像知道图片中有一只 猫和能够精确指出它的耳朵、计算它的胡须或理解它与其他物体的互动之间的区别。 强化学习的崛起与Perception-R1的诞生 强化学习 (Reinforcement Learning, RL) 引发了语言模型的范式转变。像RLHF (来自人 ...
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
量子位· 2025-05-01 03:53
DeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。 在普特南测试上, 新模型 DeepSeek-Prover-V2 直接把记录刷新到 49道 。 目前的 第一名 在657道题中只做出 10道 题,为Kimi与 AIME2024冠军团队Numina 合作成果 Kimina-Prover 。 而未针对定理证明优化的 DeepSeek-R1只做出 1道 。 让还没发布的R2更令人期待了。 | 657) | | --- | | (out of | | Lean | | मै | Model | num- | | | --- | --- | --- | --- | | | | solved | compute | | 1 | Kimina-Prover-7B-Distill♥ | 10 | pass@192 | | 2 | Self-play Theorem Prover♥ | 8 | pass@3200 | | 3 | Goedel-Prover-SFT♥ | 7 | pass@512 | | 4 | ABEL | 7 | pass@596 | | 5 | InternLM2.5-StepPr ...
Hugging Face推出低成本可编程3D打印机械臂
Huan Qiu Wang· 2025-05-01 03:27
【环球网科技综合报道】5月1日消息,人工智能开发平台Hugging Face宣布推出其最新产品——SO-101可编程、可3D打印机械臂,起售价仅为100美元。作 为Hugging Face去年发布的SO-100机械臂的升级版,SO-101在保持低价优势的同时,实现了组装速度的大幅提升和电机性能的显著优化。 值得注意的是,尽管基础版SO-101的售价定为100美元,但受整机成本及关税等因素影响,市场售价可能根据供应商不同在100至500美元之间浮动。 Hugging Face表示,将通过优化供应链和扩大生产规模,努力降低最终用户的购买成本。 此外,Hugging Face近期还完成了对法国机器人初创公司Pollen Robotics的收购,进一步壮大了其机器人业务版图。在机器人部门负责人、前特斯拉Optimus 工程师Remi Cadene的带领下,Hugging Face计划出售Pollen的人形机器人Reachy 2,并开放开发者下载和改进建议,以推动机器人技术的持续创新。 目前,SO-101机械臂已在全球范围内接受预订,预计将于近期正式发货。Hugging Face表示,将持续关注用户反馈,不断优化产品性 ...
大模型从“胡说八道”升级为“超级舔狗”,网友:再进化就该上班了
AI前线· 2025-05-01 03:04
一日为谄媚者, 终身为谄媚者 作者|冬梅、核子可乐 近日,OpenAI 在其官网发文称已回滚上周 ChatGPT 中的 GPT-4o 更新,目前用户使用的是行为更加平衡的早期版本。Altam 也在 X 上发帖说明了这一 调整。 为什会做这样的调整?因为最近不少用户发现 ChatGPT 越来越"谄媚"。 随着用户对于 ChatGPT "谄媚"行为的讨论越来越多,前微软高管、现 Spotify 首席技术官 Mikhail Parakhin 也发表了他对此事的看法。 Parakhin 认为,ChatGPT 并非一开始就以奉承用户为默认风格,不过由于用户对直接的人格反馈表现出强烈反感,OpenAI 决定调整聊天机器人,让其 更讨好用户。 Parakhin 表示:"ChatGPT 的记忆功能首次推出时,初衷是让用户查看和编辑 AI 生成的个人资料。然而,即使是像"有自恋倾向"这样相对中性的表述, 也常常引发强烈反应。" "很快就发现人们敏感得可笑:'有自恋倾向'——'不,我没有!',不得不隐藏它。因此才有了这批极度谄媚的 RLHF,"Parakhin 说道。 RLHF(基于人类反馈的强化学习)用于根据人们偏好的回应方式 ...
从论文中积累复现 R1 的 insight
理想TOP2· 2025-04-30 13:04
以下文章来源于刘聪NLP ,作者周星星 ,恢复了 PPO 的原始目标,采用蒙特卡罗回报估计优势,并设置无偏基线,从而 有效避免了优化偏差,在提升令牌效率的同时,还能维持模型的推理性能。 4. 推理能力的提升是渐进的,没有明显的"顿悟时刻" 6. 避免"长度作弊"需自然扩展响应。 刘聪NLP . NLP刘聪,如货币般流通!这里的刘聪,不会rapper,只发paper!长期关注AIGC前沿内容!还写过两 本书:ChatGPT原理与实战、大型语言模型实战指南!欢迎来讨论AI! 上篇 R1复现小记:在业务场景的两类NLP任务上有显著效果 提到在业务场景中复现 DeepSeek-R1,也简单 记录下最近阅读一些论文过程中积累的 insight。 [1]Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning [2]An Empirical Study on Eliciting and Improving R1-like Reasoning Models [3]Understanding R1-Zero-Like Training: ...
OpenAI揭秘Deep Research实现始末
锦秋集· 2025-04-30 07:09
与市面上多数"通用Agent"不同,OpenAI 的 Deep Research 从诞生那一刻起就被锁定在一件事上—— 通过强化 学习,将搜索、浏览、筛选与整合信息的能力内化为模型的原生技能,直接训练进参数里,而不是仅靠 Prompt工程和外部工程组合 。 那么,OpenAI 是如何把这套复杂技能训练进参数里的?他们在数据筹备、强化微调、安全与记忆管理上又摸 索出了哪些最佳实践? OpenAI Deep Research团队核心成员Isa Fulford最近在一个访谈中做了分享: 我们认为这个访谈提供了一个透视 OpenAI 构建旗舰智能体 Deep Research 的独特视角,并提供了一些开发实 践经验,因此锦秋基金( 微信公号锦秋集ID:jqcapital)对本文进行了编译。 01 Deep Research 的起源与目标 OpenAI 团队在强化学习算法刚刚显露锋芒时,放弃了订汉堡、订花那条看似容易衡量的交易型赛道, 转而攻克浏览与知识整合——他们认为整合知识是AGI 必不可少的前置技能, 也因为"纯读取"比"直接 下单"更安全。 数据的质量比数量更重要。 Deep Research 倾向"小而准": ...
新势力 AI 大模型全对比:小鹏野心、理想务实、蔚来追赶
Core Insights - The rapid development of AI models, particularly in the automotive sector, is highlighted by the emergence of large-scale models like Xiaopeng's 720 billion parameter model and Li Auto's 22 billion parameter MindVLA model, indicating a competitive race among new automotive players [1][2][21] - Xiaopeng's strategy focuses on cloud-based model training and distillation to overcome limitations in on-vehicle computing power, while Li Auto emphasizes practical applications with its VLA model [2][12][21] - NIO appears to lag behind in the AI model race, having not made significant advancements since the introduction of its NWM model, which is still not widely deployed [4][18][21] Xiaopeng's AI Strategy - Xiaopeng is developing a "world base model" that utilizes a large language model (LLM) backbone and extensive multimodal driving data, aiming for a comprehensive understanding and interaction with the physical world [1][8] - The "cloud model factory" allows for rapid iteration cycles of about five days, leveraging powerful AI infrastructure and data processing capabilities [2][13] - Xiaopeng's approach includes reinforcement learning to enhance the model's ability to handle extreme scenarios, which is crucial for autonomous driving [9][17] Li Auto's Approach - Li Auto's MindVLA model is designed to interact with the physical world, similar to robotics, and is deployed directly on vehicles [2][14] - The company has successfully implemented an end-to-end system that has been emulated by other automakers, showcasing its leadership in the field [14][15] - Li Auto's focus on practical applications and user feedback is evident in its development of a model that aligns with human driving behavior [17][21] NIO's Position - NIO's NWM model aims to enhance spatial understanding and predictive capabilities but has faced delays in large-scale deployment due to organizational changes and regulatory challenges [4][18] - The company is leveraging a "crowd intelligence" approach, utilizing data from its fleet to improve model training and safety features [20][21] - Despite slower progress, NIO emphasizes safety and has implemented advanced safety features, positioning itself as a cautious player in the competitive landscape [20][21] Industry Trends - The automotive industry is witnessing a shift from traditional mapping to end-to-end AI models, with companies exploring various technical paths to enhance autonomous driving capabilities [4][5] - The performance of language models is showing diminishing returns as parameter sizes increase, prompting a move towards multimodal models by major tech players [4][5] - The competition among Xiaopeng, Li Auto, and NIO reflects broader trends in the industry, where technological ambition, practical application, and safety considerations are critical for success [21]
对谈 Pokee.ai 朱哲清:强化学习做核心,Agent 的少数派造法
晚点LatePost· 2025-04-29 08:43
可能是更高效、更便宜的 Agent 实现路径。 文 丨 孙海宁 编辑 丨 程曼祺 主流 AI Agent 都把大语言模型(LLM,或者它的多模态版本)当作 "大脑",靠一个或几个 LLM 编 排工作、调用工具。但也有另一条路:Agent 规划、作业靠不依赖自然语言的强化学习模型,LLM 只 充当 Agent 和人类的 "交互层"。 不一样的想法,来自去年 10 月成立,至今只有 4 个正式员工的 Pokee.ai。 Pokee.ai 创始人朱哲清有十余年强化学习研究、落地经验。2017 年起,从杜克大学计算机科学专业毕 业的朱哲清,一边在斯坦福大学攻读强化学习方向博士学位,师从 Benjamin Van Roy;一边在 Meta 工作,曾任 Meta"应用强化学习" 部门负责人,他用强化学习算法改善内容推荐系统,把上任前只剩 3 人,一度要关停的部门扩张至 10 余人,为 Meta 增收 5 亿美元。 靠 LLM 规划、决策,是个自然而主流的想法。OpenAI Operator 和网页交互、操作电脑的能力基于 GPT-4o 模型,Manus 完成任务则是靠 Claude 3.5 Sonnet 模型做长程规划。 ...