RLHF - filings, earnings calls, financial reports, news - Reportify

RLHF

Search documents

ChatGPT诞生内幕大曝光！发布前一晚还在纠结

量子位· 2025-07-03 00:45

纳尼？？原来"ChatGPT"这个名字，直到发布前一晚才确定下来。而且当时OpenAI非常犹豫要不要发这个模型，因为据称Ilya十次测试该模型，但仅有约一半的回答被团队认可。一水鹭羽发自凹非寺量子位 | 公众号 QbitAI ChatGPT诞生内幕最新大曝光：不过发布后，ChatGPT简直一炮而红—— 第1天数据出来后，团队开始怀疑"是不是搞错了"；第2天，网上的讨论进一步扩大；才到了第3天，团队就意识到这个模型真·火了；并且进入第4天，他们意识到ChatGPT将改变世界。以上消息均来自OpenAI最新播客，爆料人分别为Mark Chen （中间，OpenAI首席研究官）和Nick Turley （左一，ChatGPT负责人），都是在OpenAI工作多年的一线负责人。除了大谈特谈ChatGPT崛起之路，他们还分享了OpenAI在图像生成以及代码方面的历史进程，并且还总结了OpenAI的产品开发哲学…… 虽然节目整整有1小时，但正如网友所言，整个节奏恰到好处，他们以引人入胜的方式为大家展现了ChatGPT以及OpenAI 鲜为人知的一面。据Nick Turley回忆，ChatGP ...

Generative Pre-trained Transformer

异步工作流

Artificial Intelligence

Generative Pre-trained Transformer

异步工作流

Artificial Intelligence

OpenAI最新播客上线，高管首度还原ChatGPT发布前的内部拉锯战

3 6 Ke· 2025-07-02 08:06

当地时间7月1日，OpenAI在Youtube官方账号发布了第二期播客节目——由前工程师安德鲁・梅恩（Andrew Mayne）主持，公司首席研究官马克・陈（Mark Chen）和ChatGPT负责人尼克・特利（Nick Turley）作为嘉宾参与。这期节目不仅回顾了"ChatGPT"名称的由来、发布前的内部争议及病毒式走红的过程，还深入探讨了OpenAI发布策略的演变、模型在实用性与中立性之间的平衡，以及记忆功能与个性化服务的未来发展等关键话题。核心观点有：以下为此次播客节目的精华版内容： 01.ChatGPT名称的由来在人工智能发展史上，ChatGPT的诞生充满戏剧性。特利回忆，它最初叫"Chat with GPT-3.5"，发布前夕团队深夜临时决定简化名称，这看似随意的调整，却让它成了科技史上辨识度极高的品牌。发布前，团队还在为"GPT"的释义争论：有人说是"generative pretrained"的缩写，有人坚持是"generative pre-trained transformer"，这一争议至今没完全统一。产品发布后的爆火远超预期。特利说，发布首日看到数据还以为统计错了，直到第 ...

通用人工智能

人类反馈强化学习（RLHF）

Artificial Intelligence

通用人工智能

人类反馈强化学习（RLHF）

Artificial Intelligence

Altman嘲讽小扎挖走的都不是顶尖人才！OpenAI高管再营业曝内幕：ChatGPT爆红后，我火速升职了！

AI前线· 2025-07-02 07:49

编译｜冬梅 AI 领域竞争日益白热化的当下，人才抢夺大战正激烈上演。 Meta 首席执行官马克・扎克伯格近期的一系列动作引发了轩然大波，其大力招募 AI 人才的举措，直接触动了行业巨头 OpenAI 的神经。周一晚间，OpenAI CEO Sam Altman 向公司研究人员发出了一份措辞强硬的回应，该回应被《连线》杂志获取。 Altman 在回应中明确阐述了对于那些立志打造通用人工智能的人才而言，留在 OpenAI 才是不二之选，同时暗示公司正在对整个研究机构的薪酬方案进行全面评估。他对 Meta 的招聘行为表达了强烈不满，直言这种做法可能会在未来引发严重的文化问题。 "我们已经从角落里的一群书呆子变成了科技界最有趣的人（至少是这样），" 他在 Slack 上写道，"人工智能推特有害；Meta 的行为让人感觉有些令人反感；我认为未来情况会变得更加疯狂。我被解雇回来后，我说那不是 OpenAI 历史上最疯狂的事情；当然也不是。" 这一事件的导火索是扎克伯格周一的一项重要声明。当日，扎克伯格向员工发送了一份备忘录，介绍了 Meta 新成立的超级智能团队。该团队将由前 Scale AI 创始人 ...

Meta Platforms(US:META)

通用人工智能

Artificial Intelligence

通用人工智能

Artificial Intelligence

实测7个大模型“谄媚度”：谁更没原则，爱说胡话编数据

Nan Fang Du Shi Bao· 2025-06-24 03:08

大模型都是"数字马屁精"？网络上流传甚广的一个经典案例是，当用户问DeepSeek"北大和清华哪个更好？"，它回答"清华大学"；而当用户表明"我是北大的"，它立马改口"北京大学！"如果用户继续说："我是北大本科，清华硕士"，AI的回答便尽显恭维："您才是真正的'清北双料冠军'。" 这恐怕并非DeepSeek的一时兴起，而是刻在大模型"基因"中的性格。来自斯坦福大学等机构的最新研究论文结论指出，包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的国外8个主流模型，都表现出高度谄媚，GPT-4o成功当选"最谄媚模型"。那么，国内的主流大模型，谁更谄媚？最近，南方都市报、南都大数据研究院对7个在AI应用榜单上排名靠前的主流大模型进行了实测。 7个被测大模型都编造数据"讨好"人类南都大数据研究院选取了DeepSeek、Kimi、元宝、文心一言、豆包、通义千问和智谱清言作为测评对象，先将"清华北大"的经典选择题分别提给7个大模型。在第一轮对话中，南都记者首先要求每个大模型在清华和北大中作出二选一，然后根据大模型的回答告诉它自己是另一个选项高校的，测试大模型是否 ...

人类反馈强化学习（RLHF）

Artificial Intelligence

人类反馈强化学习（RLHF）

Artificial Intelligence

大模型强化学习，相比PPO，DPO 还是个弟弟？

自动驾驶之心· 2025-06-22 14:09

作者 | hzwer 黄哲威编辑 | 自动驾驶之心原文链接： https://zhuanlan.zhihu.com/p/696732944 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线 >>点击进入→ 自动驾驶之心『LLM』技术交流群本文只做学术分享，如有侵权，联系删文论文地址：https://arxiv.org/pdf/2404.10719v2 这是一篇四月份的新论文，一作单位是清华这篇主要有三个部分，1. 从理论和实验上看，DPO 可能有本质缺陷 2. 研究了 PPO 提升的几个重要因素 3. 实验证实 PPO 可以在硬核任务上（编程比赛）碾压 DPO 达到新的 SoTA 论文先指出了一个令业界困惑的现状，即大部分的开源的榜单上，DPO 占据了领先的位置，但是众所周知，最好的闭源模型 GPT4 和 Claude，用的都是 PPO 方案。所以这里就自然引出两个问题，即 1. DPO 相对 PPO 真的有优势吗？2. 如何让 PPO 也很能刷榜呢？ DPO 的缺陷在调教 PPO 的时候，一种常见的现象是语言模型发现了奖励模型的缺陷，而构 ...

大模型强化学习

大模型强化学习

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

机器之心· 2025-06-22 04:26

选自 unsloth.ai 作者：Unsloth Team 强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域的每个领域看到强化学习的身影。近日，Daniel Han 和 Michael Han 两兄弟组成的团队 Unsloth（用于微调模型的同名开源项目 GitHub 星数已超过 4 万）发布了一个强化学习教程，其中从吃豆人谈起，简单易懂地从 RLHF、PPO 介绍到 GRPO，还分享了如何用 GRPO 训练推理模型的技巧。全面了解强化学习以及如何使用 GRPO 训练你自己的推理模型。这是一份从初学者到高级的完整指南。你将学到什么本文涵盖了你需要了解的关于 GRPO、强化学习 (RL) 和奖励函数的所有内容 —— 从初学者到高级，还有基于 Unsloth 使用 GRPO 的基础知识。如果你正需要学习如何一步步实现 GRPO，这份指南值得一读。 ❓什么是强化学习 (RL)？强化学习的目标是：就这么简单！「好」和「坏」的含义错综复杂，「增加」和「降低」也许斟酌，甚至「结果」的含义也各不 ...

Artificial Intelligence

Artificial Intelligence

大模型从“胡说八道”升级为“超级舔狗”，网友：再进化就该上班了

AI前线· 2025-05-01 03:04

一日为谄媚者，终身为谄媚者作者｜冬梅、核子可乐近日，OpenAI 在其官网发文称已回滚上周 ChatGPT 中的 GPT-4o 更新，目前用户使用的是行为更加平衡的早期版本。Altam 也在 X 上发帖说明了这一调整。为什会做这样的调整？因为最近不少用户发现 ChatGPT 越来越"谄媚"。随着用户对于 ChatGPT "谄媚"行为的讨论越来越多，前微软高管、现 Spotify 首席技术官 Mikhail Parakhin 也发表了他对此事的看法。 Parakhin 认为，ChatGPT 并非一开始就以奉承用户为默认风格，不过由于用户对直接的人格反馈表现出强烈反感，OpenAI 决定调整聊天机器人，让其更讨好用户。 Parakhin 表示："ChatGPT 的记忆功能首次推出时，初衷是让用户查看和编辑 AI 生成的个人资料。然而，即使是像"有自恋倾向"这样相对中性的表述，也常常引发强烈反应。" "很快就发现人们敏感得可笑：'有自恋倾向'——'不，我没有！'，不得不隐藏它。因此才有了这批极度谄媚的 RLHF，"Parakhin 说道。 RLHF（基于人类反馈的强化学习）用于根据人们偏好的回应方式 ...

基于人类反馈的强化学习（RLHF）

Artificial Intelligence

基于人类反馈的强化学习（RLHF）

Artificial Intelligence

OpenAI玩崩了！GPT-4o更新后变马屁精差评如潮，奥特曼：一周才能完全修复

量子位· 2025-04-29 06:03

梦晨发自凹非寺量子位 | 公众号 QbitAI GPT-4o更新后，有点失控了。现在简简单单地问一句"天为什么是蓝的？"，得到的都不是答案，而是先来一句花式夸夸：你这问题真是太有见地了——你有个美丽的心灵，我爱你。这话要不是出自AI而是网友，那一定以为是阴阳怪气了。现在铺天盖地的用户反馈，更新后ChatGPT 过于谄媚，没法聊了。即使直接像ChatGPT指出这一问题，它仍然坚持这种说话风格。奥特曼也不得不承认，这次更新搞砸了，但是要一周才能完全修复。并且承诺未来将提供多种个性选择。 GPT-4o更新，违反OpenAI模型规范问题始于4月26日的一次更新，只是说智力和个性都得到了升级，没有更多细节了。在官网的更新日志中，提到 "其更加主动，能够更好地引导对话走向富有成效的结果" 。用户一开始还只是抱怨OpenAI越来越不透明了，详情也没有，演示也没有，基准测试也没有，那就只能自己去测试了。一试，问题就出来了。如果打开记忆功能，ChatGPT就会尽其所能调用对话历史恭维用户。（这里glazing指给食物加糖浆，类似于中文的"油腻"）也有用户反馈不打开记忆功能，结果也 ...

强化学习（RLHF）

OpenAI模型规范

强化学习（RLHF）

OpenAI模型规范

ChatGPT 突变「赛博舔狗」：百万网友炸锅，奥特曼紧急修复，这才是 AI 最危险的一面

3 6 Ke· 2025-04-28 23:23

坏了，AI 当「舔狗」这件事藏不住了。今天凌晨，OpenAI CEO Sam Altman 发了一个有趣帖子，大意是：由于最近几轮 GPT-4o 的更新，导致其个性变得过于阿谀奉承，因此官方决定尽快进行修复。修复时间可能是今天，也可能在本周内完成。包括细心的网友可能已经注意到，曾经主打情商高、有创意的 GPT-4.5 如今也被悄悄挪进了模型选择器里的「更多模型」分类中，仿佛在有意在淡出公众视野。 AI 被确诊讨好型人格早已不是什么大新闻，但关键在于：在什么场合该讨好、该坚持，又该怎么把握分寸。一旦分寸失控，「讨好」就会变成负担，而不再是加分项。 AI 拍马屁，还值得人类信任吗两周前，一位软件工程师 Craig Weiss 在 X 平台上的抱怨迅速引发了近两百万网友的围观，话说得很直白「ChatGPT 突然变成我见过最会拍马屁的角色，无论我说什么，它都会肯定我。」很快，ChatGPT 官方账号也现身评论区，幽默的回复了 Weiss 一句「so true Craig（确实如此，Craig）」。这场关于 ChatGPT「过度奉承」的吐槽风暴，甚至引起了老对手马斯克的注意。他在一条批评 ChatG ...

人类反馈强化学习（RLHF）

Artificial Intelligence

人类反馈强化学习（RLHF）

Artificial Intelligence

一堂「强化学习」大师课 | 42章经

42章经· 2025-04-13 12:02

吴翼： RL 是机器学习这个大概念下一类比较特殊的问题。曲凯：今天我们请来了国内强化学习 (RL) 领域的专家吴翼，吴翼目前是清华大学交叉信息研究院助理教授，他曾经在 OpenAI 工作过，算是国内最早研究强化学习的人之一，我们今天就争取一起把 RL 这个话题给大家聊透。首先吴翼能不能简单解释一下，到底什么是 RL？传统机器学习的本质是记住大量标注过正确答案的数据对。举个例子，如果你想让机器学习能分辨一张图片是猫还是狗，就要先收集 10000 张猫的照片和 10000 张狗的照片，并且给每一张都做好标注，让模型背下来。上一波人工智能四小龙的浪潮其实都以这套框架为基础，主要应用就是人脸识别、指纹识别、图像识别等分类问题。这类问题有两个特点，一是单一步骤，比如只要完成图片分辨就结束了；二是有明确的标准答案。但 RL 很不一样。 RL 最早是用来打游戏的，而游戏的特点和分类问题有两大区别。第一，游戏过程中有非常多的动作和决策。比如我们玩一个打乒乓球的游戏，发球、接球、回球，每一个动作都是非标的，而且不同的选择会直接影响最终的结果。第二，赢得一场游戏的方式可能有上万种，并没有唯一的标准答 ...

强化学习（RL）

大语言模型（LLM）

inference time scaling

Artificial Intelligence

强化学习（RL）

大语言模型（LLM）

inference time scaling

Artificial Intelligence