Workflow
思维链
icon
Search documents
Jason Wei也被小扎带走:思维链开创者、o1系列奠基人!这次真挖到OpenAI大动脉了
量子位· 2025-07-16 04:21
Jason Wei,思维链的提出者、o1系列模型的关键人物 ,被曝也被扎克伯格请走,即将入职Meta。 消息最早由《连线》杂志Kylie曝光,得到了消息人士证实。 克雷西 时令 发自 凹非寺 量子位 | 公众号 QbitAI 这次是真真真挖到OpenAI大动脉了。 Kylie还表示,Jason Wei的Slack账号 (OpenAI的企业微信) 已经被停用,一同被停用的还有o1的另一位关键人物 Hyung Won Chung 所以o1团队,这是要在Meta聚成满天星了? 在此之前,面对Meta的挖人攻势,OpenAI CEO还在内部PUA,说真正TOP的都还在,只不过有些"名单靠后"的人,"唯利是图"。 然而现在,如果大名鼎鼎的 Jason Wei 也转投Meta了。 这可不是TOP不TOP了,简直就是挖到了大动脉。 思维链提出者被小扎挖走 华人科学家Jason Wei,"思维链"的提出者,o1背后的一位关键人物。 。 他本科就读于美国达特茅斯学院(Dartmouth College),专业是计算机科学,其间的论文导师Lorenzo Torresani教授现在同时担任FAIR科 学家。 2020年毕业后,Ja ...
突发|思维链开山作者Jason Wei被曝加入Meta,机器之心独家证实:Slack没了
机器之心· 2025-07-16 02:22
这或许是目前为止,扎克伯格挖走的最强技术人才。 就在刚刚,外媒 Wired 的一位资深 AI 领域记者爆料称,「多个消息源证实,OpenAI 知名研究员 Jason Wei 和另一位研究科学家 Hyung Won Chung 将双双离职,投 奔 Meta。」 并且,他们二人的 Slack 账号已经被停用。 机器之心也从 OpenAI 相关人士证实了该消息,「(Jason Wei)Slack 没了」,但是否是加入 Meta 还有待进一步证 实。 Jason Wei 是 OpenAI 的知名科学家,目前 AI 大模型领域里重要技术思维链(CoT)的主要作者,Hyung Won Chung 也是 o1 的核心贡献者之一。 | | 机器之心报道 | | --- | --- | | | 机器之心编辑部 | | Meta 针对 OpenAI 的挖人竟然还在继续! | | 如果你对他们的印象还不够深,还记得去年 12 月 OpenAI 连续两周的新产品发布会吗?坐在奥特曼旁边的就是 Hyung Won Chung,最右边的是 Jason Wei。他俩都 毕业于 MIT,曾在谷歌工作,现在可能一起去了 Meta。 爆料消息出 ...
金融科创双向奔赴:政府引导基金扩容,呼唤耐心资本深耕科创沃土
Bei Ke Cai Jing· 2025-07-14 01:04
7月11日,新京报贝壳财经年会在京召开。在本届年会上,多位顶尖专家学者、富有远见卓识的企业家领袖以及深耕实践的金融业界精英,围绕"金融如何更 有效服务实体经济、科技创新如何重塑金融赋能模式、金融与科技如何双向奔赴"等核心议题,在金融大会上展开深度对话。 北京市政府党组成员、副市长孙硕出席本届年会并致辞。孙硕表示,近年来,北京市结合四个中心和国家金融管理中心的功能定位,推动金融和实体经济的 融合发展,积极培育发展新质生产力,有效促进了经济社会的高质量发展。北京市具有清晰的产业布局,也有人才优势、科技优势。北京市正着力把握资源 禀赋的特点,发挥科技产业的优势,金融和实体经济融合互促具有广阔的空间。同时,北京市也在加快形成金融和实体经济融合互促的新增长点。 "聚焦'金融与实体经济融合'和'金融与科技创新的双向奔赴'是时代之需、路径之探,也是媒体之责。"新京报社党委书记、社长汤一原在致辞中指出,今 年,在北京市委、市政府的大力支持下,贝壳财经正式成为中宣部全国6家主流财经媒体之一,成为北京唯一入选的财经媒体品牌。这既是认可又是鞭策, 激励贝壳财经把握经济脉搏,与时代同行,做好中国经济韧性发展的记录者、推动者。 在此背 ...
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
机器之心· 2025-07-04 02:36
机器之心报道 编辑:杜伟、泽南 大语言模型(LLM)以生成能力强而著称,但如何能让它「听话」,是一门很深的学问。 基于人类反馈的强化学习(RLHF)就是用来解决这个问题的,其中的奖励模型 (Reward Model, RM)扮演着重要的裁判作用,它专门负责给 LLM 生成 的内容打分,告诉模型什么是好,什么是不好,可以保证大模型的「三观」正确。 因此,奖励模型对大模型能力来说举足轻重:它既需要能够准确进行评判,又需要足够通用化,覆盖多个知识领域,还需要具备灵活的判断能力,可以处理 多种输入,并具备足够的可扩展性。 7 月 4 日,国内 AI 科技公司昆仑万维发布了新一代奖励模型 Skywork-Reward-V2 系列,把这项技术的上限再次提升了一截。 Skywork-Reward-V2 系列共包含 8 个基于不同基座模型和不同大小的奖励模型,参数规模从 6 亿到 80 亿不等,它在七大主流奖励模型评测榜单上全部 获得了第一。 Skywork-Reward-V2 系列模型在主流基准上的成绩。 与此同时,该系列模型展现出了广泛的适用性,它在多个能力维度上表现出色,包括对人类偏好的通用对齐、客观正确性、安全性、风 ...
田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索
量子位· 2025-06-19 06:25
Core Viewpoint - The article discusses a new research achievement by a team led by AI expert Tian Yuandong, which introduces a continuous thinking chain model that parallels quantum superposition, enhancing efficiency in complex tasks compared to traditional discrete thinking chains [2][4]. Group 1: Research Findings - Traditional large language models (LLMs) utilize discrete tokens for reasoning, which can be inefficient for complex tasks, requiring O(n^2) decoding steps and often getting stuck in local optima [4]. - Recent studies indicate that using continuous hidden vectors for reasoning can significantly improve performance, although theoretical explanations were previously lacking [5]. - The team demonstrated that a two-layer Transformer with D-step continuous chains of thought (CoTs) can solve directed graph reachability problems, outperforming discrete CoTs models that require O(n^2) decoding steps [7]. Group 2: Methodology - The continuous thinking chain allows for simultaneous encoding of multiple candidate graph paths, akin to breadth-first search (BFS), providing a significant advantage over discrete thinking chains, which resemble depth-first search (DFS) [8]. - A designed attention selector mechanism enables the model to focus on specific positions based on the current token, ensuring effective information extraction [11][12]. - The first layer of the Transformer organizes edge information, while the second layer facilitates parallel exploration of all possible paths [21][22]. Group 3: Experimental Results - The team conducted experiments using a subset of the ProsQA dataset, which required 3-4 reasoning steps to solve, with each node represented as a dedicated token [26]. - The COCONUT model, utilizing a two-layer Transformer, achieved an accuracy close to 100% in solving ProsQA problems, while a 12-layer discrete CoT model only reached 83% accuracy, and a baseline model solved approximately 75% of tasks [27][28]. - The model's behavior was further validated through analysis of attention patterns and continuous thinking representations, supporting the theoretical hypothesis of superposition search behavior [30].
昆仑万维2024年财报:AI业务高歌猛进,净利润巨亏15.95亿
Sou Hu Cai Jing· 2025-04-28 07:38
2025年4月28日,昆仑万维发布2024年年报,公司实现营业总收入56.62亿元,同比增长15.20%,但归属 于母公司股东的净利润却大幅亏损15.95亿元,同比下降226.74%。尽管公司在AI领域的技术创新和海外 市场拓展方面取得了显著进展,但高额的研发投入和金融资产价格波动导致的投资损失,使得公司短期 内利润承压。 2024年,昆仑万维继续坚定践行"All in AGI与AIGC"发展战略,全年研发费用达到15.4亿元,同比增长 59.5%。公司在AI大模型、AI搜索、AI短剧、AI音乐、AI游戏和AI社交等领域取得了多项技术突破。 在AI大模型方面,公司发布了"天工2.0"、"天工3.0"和"天工4.0"系列模型,其中"天工4.0"包含实时语音 交互系统和慢思考推理能力,树立了新的技术标杆。此外,公司还开源了Skywork-MoE稀疏大模型、 Skyworko1Open模型、SkyworkR1V多模态思维链推理模型等,推动AI技术的普惠化应用。 在AI音乐领域,公司推出的MurekaO1模型及MurekaV6模型,性能全面超越Suno,登顶SOTA,成为全 球首个音乐推理大模型。AI音乐商用创作平台 ...
一文看懂多模态思维链
量子位· 2025-03-25 00:59
MCoT团队 投稿 量子位 | 公众号 QbitAI 多模态思维链 (MCoT) 系统综述来了! 不仅阐释了与该领域相关的基本概念和定义,还包括详细的分类法、对不同应用中现有方法的分析、对当前挑战的洞察以及促进多模态推理发 展的未来研究方向。 当下,传统思维链 (CoT) 已经让AI在文字推理上变得更聪明,比如一步步推导数学题的答案。但现实世界远比单一文字复杂得多——我们 看图说话、听声辨情、摸物识形。 MCoT的出现就像给AI装上了"多感官大脑",它 能同时处理图像、视频、音频、3D模型、表格等多种信息 。比如,输入一张CT影像和患者的 病史,AI就能输出诊断报告,还能标注出病灶位置。 这种跨越模态的推理能力,让AI更接近人类的思考方式。 然而,尽管取得了这些进展,该领域仍缺乏全面综述。为了填补这一空白,来自新加坡国立大学、香港中文大学、新加坡南洋理工大学、罗切 斯特大学的研究人员联合完成这项新工作。 以下是更多细节。 MCoT核心方法论 多模态思维链 (MCoT) 的成功依赖于其系统化的方法论体系,以下是对其六大技术支柱的重新表述与润色,旨在提升学术表达的精确性与 流畅性: 1、推理构建视角 基于提示 ( ...
草稿链代替思维链,推理token砍掉80%,显著降低算力成本和延迟
量子位· 2025-03-10 03:29
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 推理token减少80%-90%,准确率变化不大,某些任务还能增加。 Zoom团队提出思维链替代品"草稿链",显著降低延迟和算力成本。 原理很简单,要求模型为每个推理步骤生成简洁、信息密集的token。 这一思路受到人类解题过程启发,人类通常不会详细阐述每一个细节,只是简单几下关键的中间结果,作为草稿来辅助思考。 此外,草稿链方法简单且易于实现,不需要修改模型、微调或强化学习,只需更新提示词中的示例即可,相关代码和数据已在GitHub上开 源。 研究团队认为,与另一种降低延迟和计算成本的方法"在连续潜空间推理"相比,草稿链保留了可解释性,且可以应用于闭源的黑盒模型。 第三方分析测算,对于每个月处理100万个推理请求的企业, 可以将成本从思维链的3800美元降低到760美元,每月节省超过3000美元。 实验遵循原始思维链论文,评估3类任务:算术推理、常识推理和符号推理。 算数推理任务选择GSM8k数据集,从准确率看,标准提示下GPT-4o和Claude 3.5 Sonnet的准确率分别仅53.3%和64.6%,思维链使两者均 超95%,草稿链也达到91%左右 ...