Workflow
reinforcement learning
icon
Search documents
OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!
机器之心· 2025-05-07 04:34
王鸿儒目前就读于香港中文大学博士四年级 (预计今年7月毕业),导师为黄锦辉教授,研究方向主要包括对话系统,工具学习以及大语言模型智能体等, 英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者,在国际顶级会议如NeurIPS, ACL, EMNLP等发表30余篇相关论文,其中包括10多篇一作或 共一论文,代表工作有Cue-CoT, SAFARI, AppBench, Self-DC, OTC等,谷歌学术引用超600次,NeurIPS Area Chair以及多个国际顶级会议审稿人, NICE社区初创成员,曾获得国际博士生论坛最佳论文奖,ACL 2024@SIGHAN 最佳论文奖,WWW2024 Online Safety Prize Challenge冠军等多项荣 誉。 Agent 即一系列自动化帮助人类完成具体任务的智能体或者智能助手,可以自主进行推理,与环境进行交互并获取环境以及人类反馈,从而最终完成给定的 任务,比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。 强化学习(Reinforcement Learning)被认为是当下最具想象力、最适合用于 Agent 自 ...
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
量子位· 2025-05-03 04:05
于恩 投稿 量子位 | 公众号 QbitAI 超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的 纯多模态开源LLM 来啦! 华中科技大学、北京邮电大学等多所高校研究团队共同推出的 Perception-R1 (PR1) ,在视觉推理中最基础的感知层面,探究rule- based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的 纯视觉 (计数,通用目标检测) 以及 视觉语言 (grounding,OCR) 任务,实验结果展现出在模型感知策略上 的巨大潜力。 然而,在识别物体和真正以细致入微的理解和逻辑感知视觉世界之间存在微妙的差异。虽然MLLM在一般的视觉问答方面越来越出色,但它们 在需要精确物体定位、准确计数多个物体、在复杂布局中完美阅读文本或执行复杂视觉推理的任务上常常表现不佳。这就像知道图片中有一只 猫和能够精确指出它的耳朵、计算它的胡须或理解它与其他物体的互动之间的区别。 强化学习的崛起与Perception-R1的诞生 强化学习 (Reinforcement Learning, RL) 引发了语言模型的范式转变。像RLHF (来自人 ...
清华“挖”来美国顶尖AI学者
Guan Cha Zhe Wang· 2025-04-29 06:52
文章称,兰姆课题组计划招收2025年秋季以及之后入学的博士生、硕士生,以及访问学生(包括本科实 习生),并优先考虑有机器学习和强化学习研究经历的同学。 此外,在神经信息处理系统大会(NeurIPS)、国际机器学习大会(ICML)或国际表征学习大会 (ICLR)这三大机器学习领域的顶级学术会议上有发表经历,将是申请者有力的加分项。 兰姆的研究聚焦于机器学习,尤其是强化学习和生成模型等方向。他近期的研究重点包括通过交互和无 监督探索来学习策略,从丰富的观察数据中学习抽象世界模型,以及探索新型生成模型和序列模型的训 练方法,以期改进长文本和不确定性建模上的表现。 【文/观察者网 张菁娟】美国持续对教育和科学的攻击,正将科学家和研究人员向外推。 香港英文媒体《南华早报》29日援引两名知情人士的话报道称,微软研究院纽约实验室的高级研究员兰 姆(Alex Lamb)将于即将到来的秋季学期加入新成立的清华大学人工智能学院(College of AI),担 任助理教授。兰姆在一封电子邮件中证实了这一消息。 报道称,兰姆在约翰霍普金斯大学获得应用数学和计算机科学学士学位后,于2015年至2020年在加拿大 蒙特利尔大学攻读计算 ...
深度|清华姚班学霸、OpenAI姚顺雨:AI下半场从“算法竞赛”转向“效用定义”,重构评估框架,将技术能力转化为真实世界价值
Z Potentials· 2025-04-25 03:05
Z Highlights 姚顺 雨 是斯坦福大学自然语言处理研究员, OpenAI 员工 ,专注于强化学习与语言模型融合研究。本文译自姚顺 雨 于 2025 年 4 月 10 日发布的英文博客 《 The Second Half 》,内容整合了他在斯坦福课程 CS224N 及哥伦比亚大学前沿论坛的核心演讲观点。 我们正处于AI的中场阶段。几十年来,AI的核心一直是开发新的训练方法和模型。这条路奏效了:从在国际象棋和围棋上击败世界冠军,到在SAT和律师 资格考试中超越大多数人类,甚至赢得IMO和IOI金牌。 这些载入史册的里程碑——DeepBlue、AlphaGo、GPT-4,以及o系列模型——背后是AI方法的根 本性创新:搜索、深度强化学习、模型规模化,以及推理。 一切都在不断变得更好。 那现在究竟发生了什么变化?用三个词概括:强化学习终于奏效了。更准确地说:强化学习终于具备了泛化能力。经历了多次重大的绕行与一系列里程碑 之后,我们终于找到了一个通用的有效配方,能够利用语言和推理解决各种各样的强化学习任务。哪怕是在一年前,如果你告诉大多数AI研究人员,一个 统一的方法可以同时解决软件工程、创意写作、IMO级别 ...
Pony Ai(PONY) - 2024 Q4 - Earnings Call Transcript
2025-03-25 13:02
Pony AI (PONY) Q4 2024 Earnings Call March 25, 2025 08:00 AM ET Company Participants George Shao - Head of Capital Markets & IRJun Peng - Chairman, Co-Founder & CEOTiancheng Lou - Director, Co-founder & CTOHaojun Wang - CFOBin Wang - VP - Investment Banking Conference Call Participants None - AnalystMing Hsun Lee - AnalystPurdy Ho - Chief Analyst for Overseas Technology Operator Ladies and gentlemen, thank you for standing by, and welcome to Pony AI Inc. Fourth Quarter and Full Year twenty twenty four Earni ...
Pony Ai(PONY) - 2024 Q4 - Earnings Call Transcript
2025-03-25 12:00
Pony AI (PONY) Q4 2024 Earnings Call March 25, 2025 08:00 AM ET Company Participants George Shao - Head of Capital Markets & IRJun Peng - Chairman, Co-Founder & CEOTiancheng Lou - Director, Co-founder & CTOHaojun Wang - CFOBin Wang - VP - Investment Banking Conference Call Participants None - AnalystMing Hsun Lee - AnalystPurdy Ho - Chief Analyst for Overseas Technology Operator Ladies and gentlemen, thank you for standing by, and welcome to Pony AI Inc. Fourth Quarter and Full Year twenty twenty four Earni ...