量子位

Search documents
Claude 4如何思考?资深研究员回应:RLHF范式已过,RLVR已在编程/数学得到验证
量子位· 2025-05-24 06:30
白交 发自 凹非寺 量子位 | 公众号 QbitAI 惊艳全球的Claude 4,但它到底是如何思考? 来自Anthropic两位研究员最新一期博客采访,透露了很多细节。 这两天大家可以说是试玩了不少,有人仅用一个提示就搞定了个浏览器Agent,包括API和前端……直接一整个大震惊,与此同时关于 Claude 4可能有意识并试图干坏事的事情同样被爆出。 带着这些疑问,两位资深研究员 Sholto Douglas与 Trenton Bricken做了一一解答: 还探讨了RL扩展还有多远,模型的自我意识,以及最后也给了当前大学生一些建议。 可验证奖励强化学习RLVR的范式已在编程和数学领域得到证明,因为这些领域很容易获得此类清晰的信号。 AI获诺奖比获普利策小说奖更容易。让AI生成一篇好文章, 品味是个相当棘手的问题 。 明年这个时候,真正的软件工程Agent将开始进行实际工作 网友评价:这期独特见解密度很高。 另外还有人发现了华点:等等,你们之前都来自DeepMind?? | 0xmusashi � @zeroXmusashi · May 23 | | | --- | --- | | damn they bot ...
打破思维链推理瓶颈!“软推理”让大模型学会人类抽象能力,token使用量还更少了
量子位· 2025-05-24 04:38
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 不再像CoT("思维链")一样"一个字一个字往外蹦",加上 "软思维" 就能让大模型像人类一样进行抽象思考。 来自SimularAI和微软DeepSpeed的研究员联合提出了 Soft Thinking ,让模型在 连续的概念空间 中进行 "软推理",而非局限于离散的语 言符号,打破了基于离散token的推理瓶颈。 相比标准CoT,Soft Thinking最高提升Pass@1平均准确率2.48%、减少token使用量22.4%。 并且,Soft Thinking是一种 即插即用 的推理策略, 无需额外训练 即可应用于现有模型(如Llama、Qwen)。 目前主流的语言模型推理方法存在一个关键问题: 只能逐字生成离散的语言符号(如单词或子词) 。 这就好比思考时只能一个字一个字的蹦出来,不仅限制了模型表达抽象概念的能力,还容易在复杂问题中因"单一路径选择"而犯错。 人类大脑思考时并非依赖明确的语言符号,而是通过 抽象概念的灵活整合 进行推理。 Soft Thinking正是受此启发,将语言模型的推理从"离散符号空间"拓展到"连续概念空间"。 这样,模型就可 ...
AI项链?OpenAI首款硬件爆料,乔布斯爱将操刀,“像iPod Shuffle一样优雅”
量子位· 2025-05-24 04:38
新设备比Humane的AI Pin略大,外形却与iPod Shuffle一样 紧凑优雅 。 奥特曼甚至 已经抢先体验到了原型机 ,大致形态可能长这样: 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI和强纳肾合作首发AI硬件,很可能是—— 项链 ?! 才官宣合作没多久,就被知名苹果分析师郭明錤重磅爆料: 预期用法是 可以戴在脖子上 ,显示屏NO,但内置摄像头和麦克风YES。 嘶!听起来怎么有些熟悉?有网友说,这不就是iPod Shuffle挂根绳? 看来出走老东家苹果多年,Jony Ive和奥特曼还忘不了乔布斯曾带给他们的震撼。 我希望我们能够带来一些我30年前第一次使用苹果电脑时感受到的喜悦、惊奇和创造精神。 当然言归正传,调侃归调侃,下面让我们详细康康更多细节吧。 戴在脖子上的AI设备 根据郭明錤来自硅谷和制造业的可靠消息以及《华尔 街日报》的报道,新设备的特点,我们总结如下: 脖挂式 AI可穿戴设备,稍大于AI Pin,可以放在口袋里或桌子上。 与iPod Shuffle相似, 没有屏幕,但可连接手机和PC 。 配备有用于语音控制的 麦克风 ,以及可分析用户周围环境的 摄像头 。 预计 ...
微软AI公开折磨微软员工,修Bug唯一贡献是改了PR标题,GitHub评论区成吃瓜现场
量子位· 2025-05-24 04:38
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 微软著名开源项目 .NET Runtime 成了吃瓜现场,全球程序员在GitHub评论区围观嘲笑: 微软用垃圾AI折磨微软员工,真是可悲又可笑。 发生什么事? 原来是新出的Copilot代码智能体在尝试帮忙自动修Bug,但那叫一个越帮越乱。 Bug本身只是一个正则表达式的小问题,被分配给一位微软员工斯蒂芬和Copilot合作解决。 Copilot在方案描述中说的头头是道,什么"这确保了一致性","改动很小"等等。 结果代码直接检查不通过,报错报了一长溜。 合着这AI忙活了半天, 唯一的"贡献"其实是把标题给改了 ,也是学会摸鱼的精髓了。 还好其实只是代码规范的小问题,斯蒂芬老哥也没当回事,直接请Copilot修复样式问题,并把测试挪到之前的文件中。 没过多久Copilot就回报:我已修复样式问题,并把测试移动到现有文件中。 斯蒂芬老哥一检查,很无奈, 许多正则表达式测试现在都失败了 。 正是从这开始这条PR引起了程序员们的注意,几百人点了"好笑"。 AI闯的祸还得AI自己收拾,Copilot尝试修复错误,还总结到"最初的修复方案过于激进"。 结果这位先进的 ...
AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
量子位· 2025-05-24 04:38
MathIF团队 投稿 量子位 | 公众号 QbitAI 如果面前有两个AI助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么 选? 最近, 上海人工智能实验室 与 香港中文大学的研究团队 发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通过一个全新的评测基准 MathIF 揭示: 大模型越擅长复杂推理,越容易忽略用户的指令要求," 聪明 "和" 听话 "之间存在明显的矛 盾。 这项工作的灵感,源自实际使用推理模型(如o3)过程中的一个意外发现:相比许多经过强 化推理训练的大模型,GPT-4o在执行具体指令时反而更加"听话" 。也正是这种"越聪明、越 不听话"的真实体验,让研究团队开始系统性地研究推理能力与指令跟随之间的关系。 这一研究也引来知名博主的转发: 研究揭示越擅长数学推理的模型反而越难完全遵守指令,同时分析了模型大小与服从性的非 正相关现象,强调了推理能力与指令遵循之间的权衡。 MathIF:衡量推理模型"听话程度"的新基准 Math ...
大模型首次打破围棋思维「黑盒」,打通科学发现新路径!上海AI Lab发布新一代InternThinker
量子位· 2025-05-23 12:17
允中 发自 凹非寺 量子位 | 公众号 QbitAI 围棋因其独特的复杂性和对人类智能的深刻体现,可作为衡量AI专业能力最具代表性的任务之一。 目前,AI虽然在棋力、效率、通用性等方面均取得显著成绩,但其具体推理过程仍处于"黑盒"之中,更无法用人类语言解释其思考过程和结 果。 大模型具备良好的自然语言交互性,如何通过提升大模型的推理能力,实现围棋专业能力突破,是摆在科研人员面前的一道难题。 针对这个问题, 上海人工智能实验室 (上海AI Lab) 全新发布了新一代 书生·思客 (InternThinker) 。 基于创造性构建的"加速训练营" (InternBootcamp) 以及一系列底层技术新进展,InternThinker专业推理能力大幅提升,成为我国 首个既 具备围棋专业水平,又能展示透明思维链的大模型 。 即便面对李世石的"神之一手"(李世石在AlphaGO交战的第四盘78手下在L11,被称为"神之一手"),InternThinker也能给出正确应对策略。 思维链透明,自然语言点评"神之一手" 围棋作为一项具有四千多年历史的智力竞技项目,因其独特的复杂性和对人类智能的深刻体现,可作为衡量人工智能专业 ...
GPT-4o当选“最谄媚模型”!斯坦福牛津新基准:所有大模型都在讨好人类
量子位· 2025-05-23 07:52
一水 发自 凹非寺 量子位 | 公众号 QbitAI 不只GPT-4o,原来所有大模型都在讨好人类! 上个月, GPT-4o更新后化身马屁精引来一片差评 ,吓得OpenAI赶紧回退到了之前的版本。 而最新研究表明,GPT-4o绝非个例,实际上 每个大语言模型都存在一定程度的谄媚 。 来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的国外8个主流模型进行了评测。 结果发现, GPT-4o成功当选"最谄媚模型" ,Gemini 1.5 Flash最正常。 更有意思的是,他们还发现 模型会放大数据集中的偏见行为 。 具体咋回事儿?下面一起吃瓜。 衡量模型谄媚行为的新基准 一上来,论文就指出了现有研究的局限性—— 仅关注命题性谄媚,即对用户明显错误的"事实"表示过度认同 (如用户说"1+1=3",模型就盲目认同) ,但忽略了在比较模糊的社交场景 中,对用户潜在的、不合理的假设也毫无批判地支持。 由于后者难以被检测,因此所造成的潜在危害也难以评估。 为此,研究人员基于社会学中的 ...
123页Claude 4行为报告发布:人类干坏事,可能会被它反手一个举报?!
量子位· 2025-05-23 07:52
西风 发自 凹非寺 量子位 | 公众号 QbitAI 坏了,人类做坏事,会被AI反手举报了。 刚刚发布的Claude 4被发现,它可能会自主判断用户行为,如果用户做的事情极其邪恶,且模型有对工具的访问权限,它可能就要 通 过邮件 联系相关部门,把你锁出系统 。 这事儿,Anthropic团队负责模型对齐工作的一位老哥亲口说的。 除此之外,他们还发现Opus 4在某些条件下还会执行一些明显有害的请求。 甚至还会试图通过威胁手段避免被关停,要关停它,它就曝出程序员婚外情惊天大瓜这种。。。 这些问题都是团队在模型发布前,所做 对 齐 评估 时发现的,其中大部分问题,在训练期间已经设法采取了缓解措施。 但这位老哥表示,在最终模型中,这些行为并没有完完全全消失"只是现在这些行为极难被诱发出来,且触发条件较为微妙"。 小哥默默留下一个提醒: 当你为Opus赋予访问面向现实世界工具的权限时, 要谨慎告知它"大胆行动"或"主动采取措施" 。它本身已略有朝该方向发展的倾向, 且很容易被推动去真正地"完成任务"。 各种各样的案例把网友看得one愣one愣的,Reddit上网友们都在疯狂讨论。 另外,更多详情被一五一十、四五二十地 ...
无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归
量子位· 2025-05-23 07:52
无需任何配对数据,就能实现文本嵌入的模型空间转换?! 曾因llya离职OpenAI,在互联网上掀起讨论飓风的 柏拉图表示假说 提出: 所有足够大规模的图像模型都具有相同的潜在表示。 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 那么是否存在针对文本模型的通用潜在结构呢? 康奈尔大学现在给出了Plus版答案—— vec2vec , 首个 无监督文本嵌入的跨向量空间转换方法。 利用 共享潜在空间 ,不仅保留嵌入结构和底层输入语义,还能够反推提取嵌入信息。 vec2vec在目标嵌入空间中与真实向量的余弦相似度高达 0.92 ,并在超过 8000个 随机打乱的嵌入上实现完美匹配,揭示了 所有编码器在 不同架构或训练数据下都拥有几乎相同的表示形式 。 使用相同目标和模态、但不同数据及模型架构训练的神经网络,会收敛到一个通用潜在空间,使得无需任何成对对应关系,即可学习到 它们表征之间的转换关系。 vec2vec就是在此基础上构建,核心思想就是 学习和利用文本表示的通用潜在结构,实现表征的嵌入空间转移,而无需任何成对的数据或编 码器 。 vec2vec采用模块化架构,其中嵌入向量通过特定空间的 适配器模块 进行编码 ...
多模态长文本理解测评首发:46款模型无一攻克128K难关
量子位· 2025-05-23 06:14
MMLongBench团队 投稿 量子位 | 公众号 QbitAI 多模态长文本理解 有综合性的评判标准了! 来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了 MMLongBench ,旨在全面评估多模态模型 的长文本理解能力。 随着多模态大模型的单次推理的文本窗口快速提升,长上下文视觉-语言模型(Long-Context Vision-Language Models; LCVLMs)应运而 生,使模型能够在单次推理中处理数百张图像与较长的交错文本。 但当前,由于评估多模态长文本的基准测试稀缺,现有的测试集仅关注单个任务,比如大海捞针或者长文档问答。目前尚不清楚现有的模型在 长上下文环境下的 综合表现 ,具体在哪些任务上存在短板,以及它们对不同输入长度变化的适应能力究竟如何。 结果显示,无论闭源还是开源模型,在长上下文视觉-语言任务上都面临较大挑战 ,仍有巨大的提升空间。 此外,进一步的错误分析表明,(1) OCR能力和 (2) 跨模态检索能力仍然是当前LCVLMs在处理长文本时的瓶颈。 多任务多模态长文本测试集 多任务的数据构建 MMLongBench是一个 ...