Workflow
RLHF
icon
Search documents
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:02
吴翼: RL 是机器学习这个大概念下一类比较特殊的问题。 曲凯: 今天我们请来了国内强化学习 (RL) 领域的专家吴翼,吴翼目前是清华大学交叉信息研究院 助理教授,他曾经在 OpenAI 工作过,算是国内最早研究强化学习的人之一,我们今天就争取一 起把 RL 这个话题给大家聊透。 首先吴翼能不能简单解释一下,到底什么是 RL? 传统机器学习的本质是记住大量标注过正确答案的数据对。 举个例子,如果你想让机器学习能分辨一张图片是猫还是狗,就要先收集 10000 张猫的照片和 10000 张狗的照片,并且给每一张都做好标注,让模型背下来。 上一波人工智能四小龙的浪潮其实都以这套框架为基础,主要应用就是人脸识别、指纹识别、图 像识别等分类问题。 这类问题有两个特点,一是单一步骤,比如只要完成图片分辨就结束了;二是有明确的标准答 案。 但 RL 很不一样。 RL 最早是用来打游戏的,而游戏的特点和分类问题有两大区别。 第一,游戏过程中有非常多的动作和决策。比如我们玩一个打乒乓球的游戏,发球、接球、回 球,每一个动作都是非标的,而且不同的选择会直接影响最终的结果。 第二,赢得一场游戏的方式可能有上万种,并没有唯一的标准答 ...
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:01
曲凯: 今天我们请来了国内强化学习 (RL) 领域的专家吴翼,吴翼目前是清华大学交叉信息研究院助理教授,他曾经在 OpenAI 工作过,算是国内最早研究强化学 习的人之一,我们今天就争取一起把 RL 这个话题给大家聊透。 首先吴翼能不能简单解释一下,到底什么是 RL? 因此,RL 其实更通用一些,它的逻辑和我们在真实生活中解决问题的逻辑非常接近。比如我要去美国出差,只要最后能顺利往返,中间怎么去机场、选什么航 司、具体坐哪个航班都是开放的。 但 RL 很不一样。 RL 最早是用来打游戏的,而游戏的特点和分类问题有两大区别。 第一,游戏过程中有非常多的动作和决策。比如我们玩一个打乒乓球的游戏,发球、接球、回球,每一个动作都是非标的,而且不同的选择会直接影响最终的结 果。 第二,赢得一场游戏的方式可能有上万种,并没有唯一的标准答案。 所以 RL 是一套用于解决多步决策问题的算法框架。它要解决的问题没有标准答案,每一步的具体决策也不受约束,但当完成所有决策后,会有一个反馈机制来评 判它最终做得好还是不好。 吴翼: RL 是机器学习这个大概念下一类比较特殊的问题。 传统机器学习的本质是记住大量标注过正确答案的数据对。 ...
2030年AGI到来?谷歌DeepMind写了份“人类自保指南”
虎嗅APP· 2025-04-07 23:59
以下文章来源于极客公园 ,作者芯芯 DeepMind认为这个时间线可能非常短,发布报告的目的是说清一个问题:如果AI有问题,最坏的情况会是什么?我们现在能如何准备? 一、DeepMind的AI安全保险 极客公园 . 用极客视角,追踪你最不可错过的科技圈。欢迎同步关注极客公园视频号 本文来自微信公众号: 极客公园 (ID:geekpark) ,作者:芯芯,编辑:靖宇,题图来自:AI生成 对于所谓的通用人工智能AGI,人们通常抱着"怕它不来,又怕它乱来"的矛盾心理。而这个困惑,对于正在AI军备竞赛中的硅谷巨头来说,就不仅仅 是一个"梗"能概括的了。 4月初,谷歌DeepMind发布了一份长达145页的报告文件,系统阐述了其对AGI安全的态度,DeepMind联合创始人Shane Legg的署名也在其中。 文件中最醒目的预测,是AGI的可能出现时间: 2030年 。 当然,Google也补充说,这具有不确定性。他们定义的AGI是"卓越级AGI (Exceptional AGI) "—— 即系统在非物理任务上达到或超越99%人类成年 人的能力,包括学习新技能等元认知任务 。 这份报告中反复出现的一个词是"严重伤害 ( ...
UCL强化学习派:汪军与他的学生们
雷峰网· 2025-02-27 10:15
2006 年暑假的一个午后,汪军踏上了从荷兰小城代尔夫特开往首都阿姆斯特丹的火车,他将在阿姆斯特丹换 乘飞机,飞往美国西雅图参加第 29 届国际计算机协会信息检索大会(ACM SIGIR)。 " 他们构成中国强化学习研究的半壁江山。 " 作者丨赖文昕 编辑丨陈彩娴 作为一支在 AI 领域历经数十年的研究分支,强化学习仍在历久弥新。 01 从推荐系统到强化学习 此时的信息检索领域如日中天,加上微软、雅虎和谷歌三巨头最核心的业务也是搜索,ACM SIGIR 每年都能 汇集学术界与工业界的最高人才,来开一场信息检索界的"年会"。 在华盛顿大学的会场里,汪军在一片掌声中获得了最佳博士联盟奖,于博士毕业的前一年拿下了信息检索领域 博士的最高荣誉。 这位意气风发的青年此刻并未想到,自己将会在 15 年后再获得时间检验奖的荣誉提名——2021 年的汪军已 转向强化学习(RL)数年,作为发起人之一成立了华人强化学习社区RL China,为国内强化学习研究培养了 一批优秀的青年人才,成为领域的"一代宗师"。 汪军 汪军出生于江苏南京,1993 年从金陵中学毕业后开始在东南大学攻读电子工程专业。本科毕业后,他先在工 业界工作三年 ...