机器之心
Search documents
挑战Claude Code?OpenAI Codex发布月将至,今先揭秘智能体循环
机器之心· 2026-01-24 04:09
编辑|Panda 刚刚,OpenAI CEO 山姆・奥特曼发了一条推文:「从下周开始的接下来一个月,我们将会发布很多与 Codex 相关的激动人心的东西。」他尤其强调了网络安全这 个主题。 当然,和奥特曼的很多推文一样,这条推文也收获了网友的各式各样的评论: 似乎是响应奥特曼的 Codex 发布预告,OpenAI 官方也发布了一篇技术博客,以「 揭秘 Codex 智能体 循环 」为题,深入揭秘了 Codex CLI 的核心架构 —— 智能 体循环(Agent Loop)。 博客地址:https://openai.com/index/unrolling-the-codex-agent-loop/ 具体来说,其中详细介绍了它如何通过 Responses API 协调用户指令、模型推理与本地工具执行(如 Shell 命令),并重点阐述了通过保持「提示词前缀一致」来 触发缓存优化性能,以及利用自动压缩技术管理上下文窗口,从而在保证数据隐私(ZDR)的前提下,实现安全、高效的自动化软件开发。 下面我们就来详细看看这篇博客的内容。 揭秘 Codex 智能体循环 Codex CLI 是 OpenAI 的跨平台本地软件智能体 ...
1月28日,直播预约!来聊聊具身评测中的科学与乱象
机器之心· 2026-01-24 03:02
过去一年,我们几乎每周都能看到各种惊艳的机器人 Demo:机器人会叠衣服了、会做咖啡了、会跳各种 舞了。但在繁荣的背后,有一个问题越来越频繁地被提起,那就是: 我们到底怎么判断一个具身模型是真 的进步了 ? 具身评测是具身智能产业发展的"度量衡",是技术从实验室走向产业化的必经之路。 但一走出实验室,面对真实世界的复杂、多变和不确定性时,那些号称接近完美的成功率往往会瞬间"缩 水"。"刷榜容易,落地难",成为了悬在具身智能商业化路上的达摩克利斯之剑。 1月28日(下周三)晚19:00 ,直播即将开启。 本次圆桌对话由 机器之心创始人兼CEO 赵云峰 主持,特邀四位产业与学术专家: *音序 共同深入探讨具身智能评测的真实现状与核心挑战。 主持人 赵云峰 机器之心创始人兼 CEO 圆桌嘉宾(音序) 范浩强 李永露 范浩强,Dexmal 原力灵机Co-Founder 李永露,上海交通大学副教授、上海创智学院全时导师 沈宇军,蚂蚁灵波科技首席科学家 赵行,星海图联合创始人、清华大学助理教授 2026/01/28 19:00-20:00 周三晚 描 硕 约 直 -/ 圆桌嘉宾 , 沈宇军 赵 星海图联合创始人 清华大学 ...
LeCun、谢赛宁团队重磅论文:RAE能大规模文生图了,且比VAE更好
机器之心· 2026-01-24 01:53
编辑|Panda 在文生图模型的技术版图中,VAE 几乎已经成为共识。从 Stable Diffusion 到 FLUX,再到一系列扩散 Transformer,主流路线高度一致:先用 VAE 压缩视觉信息, 再在潜空间中完成生成。这条路径被反复验证、规模化扩展,也几乎没有再被认真挑战过。 但挑战者其实早已到来,它就是谢赛宁团队提出的 表征自编码器(RAE) ,详见我们去年十月的报道《 VAE 时代终结?谢赛宁团队「RAE」登场,表征自编码 器或成 DiT 训练新基石 》。 现在,RAE 方向又诞生了一项新的重磅成果。并且是来自 Rob Fergus、Yann LeCun 以及谢赛宁三位业内知名学者领导的一个联合团队。 | Data | | --- | | Models | | Code | | Website | 论文标题:Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders 他们解答了一个更加基础的问题: 我们真的需要 VAE 才能做好大规模文生图吗? 这篇工作给出的答案颇为激进。该团队系统性地扩展了「表 ...
音频-视觉全模态的未来预测,FutureOmni给出了首份答卷
机器之心· 2026-01-24 01:53
复旦大学、上海创智学院与新加坡国立大学联合推出首个全模态未来预测评测基准 FutureOmni,要求模型从音频 - 视觉线索中预测未来事件, 实现跨模态因果和时间推理。包含 919 个视频和 1,034 个多选题问答对,在 13 个全模态模型 和 7 个纯视频模型 上的评估显示,当前系统在预 测未来事件方面存在显著困难,最佳准确率仅为 64.8%。 在日常生活中,人类不仅能理解「发生了什么」,更重要的是能够预测「将会发生什么」。看到乌云密布、听到雷声渐近,我们会主动关窗收衣;看到老师眉头 紧皱,反复强调某个知识点(听),我们知道接下来可能会有提问;看到球员起跳的动作和听到观众的惊呼,我们能够预判这是一个精彩的扣篮。 然而,现有的多模态大语言模型(MLLMs)虽然在全方位感知方面展现出强大的能力,但它们从音频 - 视觉线索中预测未来事件的能力仍然很大程度上未被探 索。现有的音视频模态基准主要关注回顾性理解 ⸺「视频中发生了什么」,而非前瞻性预测 ⸺「接下来会发生什么」。 现在,这一空白终于被填补了!复旦大学、上海创智学院与新加坡国立大学联合发布 FutureOmni ,不仅重新定义了多模态模型的「未来预测」评测 ...
OpenAI:以后大家用AI赚的钱,我可能要抽成
机器之心· 2026-01-23 08:29
Core Viewpoint - OpenAI is shifting its business model from merely selling software to a profit-sharing approach, particularly in the pharmaceutical sector, where it aims to take a cut from the revenues generated by clients using its AI technology for drug discovery [5][4][12]. Group 1: Financial Performance and Funding - OpenAI's CEO, Sam Altman, announced that the company's API business added over $1 billion in Annual Recurring Revenue (ARR) last month [1]. - OpenAI is reportedly seeking to raise $50 billion, with a new valuation expected to be between $750 billion and $830 billion [3]. Group 2: New Business Model - The company is exploring a "value sharing" model, where it would receive a portion of the profits generated from successful drug discoveries made using its AI technology [4][5]. - This shift indicates a move away from simply charging for software usage to a model where OpenAI benefits financially when its clients succeed [5][8]. Group 3: Industry Implications - The proposed profit-sharing model could disrupt the current understanding of AI tools, potentially altering the cost structure for startups building businesses on AI APIs [8]. - OpenAI is not alone in this space; competitors like Anthropic and Google DeepMind are also engaging in discussions regarding data licensing and collaborations in the biotech sector [14]. Group 4: AI in Drug Development - AI is increasingly being utilized in drug development, with several pharmaceutical companies partnering with OpenAI to leverage its models for data analysis and hypothesis generation [13]. - OpenAI is developing specialized AI models aimed at enhancing drug discovery processes, indicating a strategic focus on the biotech industry [14]. Group 5: Future Considerations - OpenAI's CFO, Sarah Friar, hinted at the potential for similar value-sharing arrangements in other sectors, such as energy and finance, suggesting a broader application of this business model [15][16]. - The success of this new approach will depend on the outcome of the current funding efforts and whether OpenAI can maintain investor interest while pursuing these innovative strategies [17].
陈天奇、贾扬清点赞:Vibe Coding版PyTorch,连论文都是AI写的
机器之心· 2026-01-23 08:29
编辑|Panda、泽南 前两天,Node.js 之父 Ryan Dahl 在 X 上断言:「 人 类编写 代码的 时代已经结束了。 」该帖引发广泛讨论,浏览量更是已经超过了 700 万。而现在,我们迎来了 一个对这一判断的有力证明。 刚刚,英伟达杰出工程师许冰(Bing Xu)在 GitHub 上开源了一个新项目 VibeTensor ,让我们看到了 AI 在编程方面的强大实力。 从名字也能看出来,这是 Vibe Coding 的成果。事实也确实如此,这位谷歌学术引用量超 20 万的工程师在 X 上表示:「 这是第一个完全由 AI 智能体生成的深度 学习系统,没有一行人类编写的代码。 」 更重要的是,许冰强调:「自 2025 年夏天以来,我一行代码都没写过。」他说这项工作是他看过 Andrej Kaparthy 的播客之后开始的。「我当时并不认同他的观 点,所以我和 Terry Chen(英伟达首席工程师)开始用它来测试我们的智能体的能力。弗兰肯斯坦效应最终暴露了我们智能体的一些局限性 —— 但方向很明 确。」 更具体来说,VibeTensor 是一个可运行的深度学习系统,配备了 RCU 风格的调度器、缓存分 ...
思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式
机器之心· 2026-01-23 08:29
在 LLM 时代,思维链( CoT)已成为解锁模型复杂推理能力的关键钥匙。然而,CoT 的冗长问题一直困扰着研究者——中间推理步骤和解码操作带来了 巨大的计算开销和显存占用,严重制约了模型的推理效率。 显式太慢,隐式太黑盒? 为了解决这个问题,研究界近期尝试了「隐式 CoT」(Implicit CoT),即让模型在内部隐状态中完成推理,而不输出具体的文本。这种方法虽然快,但却 是个「黑盒」:我们无法知道模型到底想了什么,也难以进行监督。 有什么方案既保证推理速度快,又使得过程可分析,还无需昂贵的预训练? 针对这一挑战,腾讯内容服务部 BAC 联合清华大学与北京大学,提出了一种名为 Render-of-Thought (RoT) 的新框架。RoT 的核心思想非常巧妙: 利 用多模态模型(VLM)已有的视觉编码器作为「语义锚点」,将文本推理步骤「渲染」为图像的视觉嵌入(Visual Embeddings)。 这种方法不仅将推理过程压缩到了致密的视觉潜空间中,还通过视觉渲染让隐式推理过程变得可分析且可追踪。 RoT 走出第三条路 显式 CoT (Explicit CoT): 让模型把每一步推理都写出来,就像学生做数 ...
三星爆火递归模型TRM唯一作者被迫离职,内部不认可?
机器之心· 2026-01-23 06:37
编辑|冷猫 还记得三个月前,来自三星的一位研究员的独作论文发布即爆火,颠覆了递归推理模型架构,让一个仅包含 700 万个参数的网络,性能比肩甚至超越 o3-mini 和 Gemini 2.5 Pro 等尖端语言模型,震惊了大量业内研究人士。 这篇论文是大名鼎鼎的《Less is More: Recursive Reasoning with Tiny Networks》,带来了影响深远的 微型 递归模 型 TRM 。 关于这篇论文和模型的相关信息,可以参阅 我们之前的报道 。 按理说,发布成果的 唯一作者 Alexia Jolicoeur-Martineau ,在三星应当平步青云,带领全新的团队继续后续研究,用 TRM 的后续研究助力三星在人工智能领域 的进步。 可惜一切似乎都不尽如人意。突然间,Alexia 就发推说要离职。 从推文中明显能看出 Alexia 的怨气。 「在 TRM 取得巨大成功(为公司赚取数十亿美元)后,我在三星的生活变得一团糟。」 止不住的怨气来源于, Alexia 的工作,加拿大蒙特利尔三星先进技术研究所人工智能实验室(SAIL Montreal)取得的最大成绩,并未能够被内部认可。 听 ...
启动经费550万起!全球顶级AI人才看过来
机器之心· 2026-01-23 06:37
北京中关村学院 . 以下文章来源于北京中关村学院 ,作者北京中关村学院 Invitation 会议邀请 北京中关村学院是全新的高等教育科研机构,专注于人工智能与交叉学科领域的教育教学与科研创新。 秉持"极基础,极应用,极交叉"的颠覆式研究理念,"极经典,极前沿,极实战"的人才培养理念。 ZGCA x ZGCI 致全球英才: 北京中关村学院是全新的高等教育科研机构, 与全国31所双一流高校共建,专注于人工智能与交叉 学科的人才创新培养。 中关村人工智能研究院是年轻的探索型研发机构,深耕前沿技术研发与产业 转化。中关村两院秉持"极基础、极应用、极交叉"的颠覆式理念,以"培养AI领军人才"为使命。 我们拥有各层级人才项目自主评审权 ,将于2月6日面向全球英才召开 人才线上交流会暨第四届中 关村国际青年论坛宣导会 ,提供最直接权威的人才政策解读、在线答疑交流,诚邀全球顶尖人才参 加! Agenda 会议议程 ( 一 ) 两院整体情况介绍 (二) 两院科研情况介绍 (三) 海优人才政策介绍 时间:2026年2月6日 形式:线上宣讲 报名:扫描下方二维码 截止时间:2026年2月1日 咨询邮箱: talent@bjzgc ...
百万围观、HuggingFace多模态登顶,华人团队开源语音版「DeepSeek」海外爆火
机器之心· 2026-01-23 03:43
机器之心发布 在大模型快速迭代的背景下,语音交互正从「语音转文本(ASR)— 文本理解 — 文本转语音(TTS」的串联式架构,逐步走向端到端的实时语音生成。这一转变 不仅关系到延迟和自然度,也直接影响语音系统在真实生产环境中的可用性。 在级联式语音交互架构下,每个模块分别负责语音识别、文本理解和语音合成等任务,这种架构在早期的应用中取得了成功。但随着对实时性和低延迟要求的提 高,端到端语音交互系统逐渐成为主流,通过深度集成各个任务,减少中间转换步骤,显著提高响应速度,使交互变得更加即时和自然。 近期,FlashLabs 发布并开源了其实时语音模型 Chroma 1.0,其定位为全球首个开源的端到端语音到语音模型 。 Chroma 1.0 发布之后,便在社媒爆火,吸引了大量的关注。X 上的官推帖子已经突破了百万浏览量。 多位知名的 X 博主对 Chroma 1.0 给予了很高的评价。 一、从级联到端到端:Chroma 的系统定位 传统语音系统通常采用多阶段流水线: ASR → LLM → TTS 这一方案在准确率上已相对成熟,但在延迟、上下文连续性以及情绪一致性方面存在天然瓶颈。尤其在实时对话场景中,多模块串联 ...