Reinforcement learning

Search documents
港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵
晚点LatePost· 2025-05-23 07:41
理解智能,并不只是研究者和工程师的课题。 文 丨 程曼祺 刘倩 大模型看起来已具备智能的形式:能陪你聊天,步步思考,做高等数学题,高效地写代码……这对很 多人来说已经足够——足以带来更多研究成果、产品机会、巨额投资和股价攀升。 而马毅是那类觉得不够的人,他于无声处开始提问:智能的本质是什么? 这个问题的题面简单,答案却尚无共识。马毅认为,对智能的理解不应过于表面和短期,而应回到源 头厘清智能诞生和发展的历史。 自 2000 年从伯克利大学博士毕业以来,马毅先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研 院、上海科技大学、伯克利大学和香港大学,现担任香港大学计算与数据科学学院院长。他和团队提 出的压缩感知技术,到现在还在影响计算机视觉中模式识别领域的发展。 在浩瀚的宇宙里,除了我们正在一手制造却尚不完全可解释的 "机器智能" ,人类所见识过的智能只有 一个大样本:生命。 马毅认为,智能的本质是 "学习"——生命就是智能的载体,从 DNA 出现,到神经系统诞生和寒武纪 物种大爆发,再到人类的语言与数学的诞生,智能有不同的表现形式;但不变的是,智能都是在学习 外部世界的知识与规律,从而进行预测,使知识可以为我 ...
Pony Ai(PONY) - 2025 Q1 - Earnings Call Transcript
2025-05-20 13:00
Pony AI (PONY) Q1 2025 Earnings Call May 20, 2025 08:00 AM ET Speaker0 Ladies and gentlemen, thank you for standing by, and welcome to PonyAI Inc. First Quarter twenty twenty five Earnings Conference Call. At this time, all participants are in listen only mode. After the management's prepared remarks, there will be a question and answer session. As a reminder, today's conference call is being recorded and a webcast replay will be available on the company's Investor Relations website at ir.ponyai.com. I will ...
Unleashing the Power of Reasoning Models
DDN· 2025-05-15 19:50
Today I want to talk about building the future with design matters and want to talk about this kind of insights and future trends as well for this year. I want to focus on how we solve the customer's problem and less about ourself. So I want to start off with something huge because for a lot of us we know about AGI or artificial general intelligence.I think it's basically means that um we want to have AI that's uh achieving the the level of intelligence comparable to human and also maybe even surpass human ...
全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它
量子位· 2025-05-13 04:45
白交 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 一夜之间,老黄天塌了(doge)。 全球首个分布式RL训练模型 INTELLECT-2 发布,它仅通过整合全球闲置或分散的计算资源,就完成了模型的强化学习训练,训练成本大大 降低。 其模型性能与DeepSeek-R1媲美! 一旦范式成立,这也就意味RL训练摆脱了对集中式算力的依赖,世界上任何一个人都可以参与到模型训练当中,大公司垄断算力时代可能就 此终结。 Just like this~算力来算力来,算力从四面八方来。 此模型版本有19个人/机构提供了算力资源支持(源自模型回答,还包括它自己) 除了贡献算力,还有不少大佬愿意投钱,包括不限于Karpathy大神、FlashAttention作者Tri Dao大神、HuggingFace联创兼CEO Clem Delangue等等。 据团队成员介绍,他们从编写模型强化学习框架 prime-rl ,到今天发布大概 只用了两个月时间 。 目前基础设施已到位,并且经过验证,超过那些先进实验室只是时间问题。 (比如OpenAI?) 有人已经开始断言:未来的顶级开源模型将以分布式方式进行训练。 INTELLEC ...
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
量子位· 2025-05-03 04:05
于恩 投稿 量子位 | 公众号 QbitAI 超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的 纯多模态开源LLM 来啦! 华中科技大学、北京邮电大学等多所高校研究团队共同推出的 Perception-R1 (PR1) ,在视觉推理中最基础的感知层面,探究rule- based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的 纯视觉 (计数,通用目标检测) 以及 视觉语言 (grounding,OCR) 任务,实验结果展现出在模型感知策略上 的巨大潜力。 然而,在识别物体和真正以细致入微的理解和逻辑感知视觉世界之间存在微妙的差异。虽然MLLM在一般的视觉问答方面越来越出色,但它们 在需要精确物体定位、准确计数多个物体、在复杂布局中完美阅读文本或执行复杂视觉推理的任务上常常表现不佳。这就像知道图片中有一只 猫和能够精确指出它的耳朵、计算它的胡须或理解它与其他物体的互动之间的区别。 强化学习的崛起与Perception-R1的诞生 强化学习 (Reinforcement Learning, RL) 引发了语言模型的范式转变。像RLHF (来自人 ...
清华“挖”来美国顶尖AI学者
Guan Cha Zhe Wang· 2025-04-29 06:52
文章称,兰姆课题组计划招收2025年秋季以及之后入学的博士生、硕士生,以及访问学生(包括本科实 习生),并优先考虑有机器学习和强化学习研究经历的同学。 此外,在神经信息处理系统大会(NeurIPS)、国际机器学习大会(ICML)或国际表征学习大会 (ICLR)这三大机器学习领域的顶级学术会议上有发表经历,将是申请者有力的加分项。 兰姆的研究聚焦于机器学习,尤其是强化学习和生成模型等方向。他近期的研究重点包括通过交互和无 监督探索来学习策略,从丰富的观察数据中学习抽象世界模型,以及探索新型生成模型和序列模型的训 练方法,以期改进长文本和不确定性建模上的表现。 【文/观察者网 张菁娟】美国持续对教育和科学的攻击,正将科学家和研究人员向外推。 香港英文媒体《南华早报》29日援引两名知情人士的话报道称,微软研究院纽约实验室的高级研究员兰 姆(Alex Lamb)将于即将到来的秋季学期加入新成立的清华大学人工智能学院(College of AI),担 任助理教授。兰姆在一封电子邮件中证实了这一消息。 报道称,兰姆在约翰霍普金斯大学获得应用数学和计算机科学学士学位后,于2015年至2020年在加拿大 蒙特利尔大学攻读计算 ...
深度|清华姚班学霸、OpenAI姚顺雨:AI下半场从“算法竞赛”转向“效用定义”,重构评估框架,将技术能力转化为真实世界价值
Z Potentials· 2025-04-25 03:05
Z Highlights 姚顺 雨 是斯坦福大学自然语言处理研究员, OpenAI 员工 ,专注于强化学习与语言模型融合研究。本文译自姚顺 雨 于 2025 年 4 月 10 日发布的英文博客 《 The Second Half 》,内容整合了他在斯坦福课程 CS224N 及哥伦比亚大学前沿论坛的核心演讲观点。 我们正处于AI的中场阶段。几十年来,AI的核心一直是开发新的训练方法和模型。这条路奏效了:从在国际象棋和围棋上击败世界冠军,到在SAT和律师 资格考试中超越大多数人类,甚至赢得IMO和IOI金牌。 这些载入史册的里程碑——DeepBlue、AlphaGo、GPT-4,以及o系列模型——背后是AI方法的根 本性创新:搜索、深度强化学习、模型规模化,以及推理。 一切都在不断变得更好。 那现在究竟发生了什么变化?用三个词概括:强化学习终于奏效了。更准确地说:强化学习终于具备了泛化能力。经历了多次重大的绕行与一系列里程碑 之后,我们终于找到了一个通用的有效配方,能够利用语言和推理解决各种各样的强化学习任务。哪怕是在一年前,如果你告诉大多数AI研究人员,一个 统一的方法可以同时解决软件工程、创意写作、IMO级别 ...
Pony Ai(PONY) - 2024 Q4 - Earnings Call Transcript
2025-03-25 13:02
Pony AI (PONY) Q4 2024 Earnings Call March 25, 2025 08:00 AM ET Company Participants George Shao - Head of Capital Markets & IRJun Peng - Chairman, Co-Founder & CEOTiancheng Lou - Director, Co-founder & CTOHaojun Wang - CFOBin Wang - VP - Investment Banking Conference Call Participants None - AnalystMing Hsun Lee - AnalystPurdy Ho - Chief Analyst for Overseas Technology Operator Ladies and gentlemen, thank you for standing by, and welcome to Pony AI Inc. Fourth Quarter and Full Year twenty twenty four Earni ...
Pony Ai(PONY) - 2024 Q4 - Earnings Call Transcript
2025-03-25 12:00
Pony AI (PONY) Q4 2024 Earnings Call March 25, 2025 08:00 AM ET Company Participants George Shao - Head of Capital Markets & IRJun Peng - Chairman, Co-Founder & CEOTiancheng Lou - Director, Co-founder & CTOHaojun Wang - CFOBin Wang - VP - Investment Banking Conference Call Participants None - AnalystMing Hsun Lee - AnalystPurdy Ho - Chief Analyst for Overseas Technology Operator Ladies and gentlemen, thank you for standing by, and welcome to Pony AI Inc. Fourth Quarter and Full Year twenty twenty four Earni ...