Workflow
机器之心
icon
Search documents
OpenAI:以后大家用AI赚的钱,我可能要抽成
机器之心· 2026-01-23 08:29
Core Viewpoint - OpenAI is shifting its business model from merely selling software to a profit-sharing approach, particularly in the pharmaceutical sector, where it aims to take a cut from the revenues generated by clients using its AI technology for drug discovery [5][4][12]. Group 1: Financial Performance and Funding - OpenAI's CEO, Sam Altman, announced that the company's API business added over $1 billion in Annual Recurring Revenue (ARR) last month [1]. - OpenAI is reportedly seeking to raise $50 billion, with a new valuation expected to be between $750 billion and $830 billion [3]. Group 2: New Business Model - The company is exploring a "value sharing" model, where it would receive a portion of the profits generated from successful drug discoveries made using its AI technology [4][5]. - This shift indicates a move away from simply charging for software usage to a model where OpenAI benefits financially when its clients succeed [5][8]. Group 3: Industry Implications - The proposed profit-sharing model could disrupt the current understanding of AI tools, potentially altering the cost structure for startups building businesses on AI APIs [8]. - OpenAI is not alone in this space; competitors like Anthropic and Google DeepMind are also engaging in discussions regarding data licensing and collaborations in the biotech sector [14]. Group 4: AI in Drug Development - AI is increasingly being utilized in drug development, with several pharmaceutical companies partnering with OpenAI to leverage its models for data analysis and hypothesis generation [13]. - OpenAI is developing specialized AI models aimed at enhancing drug discovery processes, indicating a strategic focus on the biotech industry [14]. Group 5: Future Considerations - OpenAI's CFO, Sarah Friar, hinted at the potential for similar value-sharing arrangements in other sectors, such as energy and finance, suggesting a broader application of this business model [15][16]. - The success of this new approach will depend on the outcome of the current funding efforts and whether OpenAI can maintain investor interest while pursuing these innovative strategies [17].
陈天奇、贾扬清点赞:Vibe Coding版PyTorch,连论文都是AI写的
机器之心· 2026-01-23 08:29
编辑|Panda、泽南 前两天,Node.js 之父 Ryan Dahl 在 X 上断言:「 人 类编写 代码的 时代已经结束了。 」该帖引发广泛讨论,浏览量更是已经超过了 700 万。而现在,我们迎来了 一个对这一判断的有力证明。 刚刚,英伟达杰出工程师许冰(Bing Xu)在 GitHub 上开源了一个新项目 VibeTensor ,让我们看到了 AI 在编程方面的强大实力。 从名字也能看出来,这是 Vibe Coding 的成果。事实也确实如此,这位谷歌学术引用量超 20 万的工程师在 X 上表示:「 这是第一个完全由 AI 智能体生成的深度 学习系统,没有一行人类编写的代码。 」 更重要的是,许冰强调:「自 2025 年夏天以来,我一行代码都没写过。」他说这项工作是他看过 Andrej Kaparthy 的播客之后开始的。「我当时并不认同他的观 点,所以我和 Terry Chen(英伟达首席工程师)开始用它来测试我们的智能体的能力。弗兰肯斯坦效应最终暴露了我们智能体的一些局限性 —— 但方向很明 确。」 更具体来说,VibeTensor 是一个可运行的深度学习系统,配备了 RCU 风格的调度器、缓存分 ...
思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式
机器之心· 2026-01-23 08:29
在 LLM 时代,思维链( CoT)已成为解锁模型复杂推理能力的关键钥匙。然而,CoT 的冗长问题一直困扰着研究者——中间推理步骤和解码操作带来了 巨大的计算开销和显存占用,严重制约了模型的推理效率。 显式太慢,隐式太黑盒? 为了解决这个问题,研究界近期尝试了「隐式 CoT」(Implicit CoT),即让模型在内部隐状态中完成推理,而不输出具体的文本。这种方法虽然快,但却 是个「黑盒」:我们无法知道模型到底想了什么,也难以进行监督。 有什么方案既保证推理速度快,又使得过程可分析,还无需昂贵的预训练? 针对这一挑战,腾讯内容服务部 BAC 联合清华大学与北京大学,提出了一种名为 Render-of-Thought (RoT) 的新框架。RoT 的核心思想非常巧妙: 利 用多模态模型(VLM)已有的视觉编码器作为「语义锚点」,将文本推理步骤「渲染」为图像的视觉嵌入(Visual Embeddings)。 这种方法不仅将推理过程压缩到了致密的视觉潜空间中,还通过视觉渲染让隐式推理过程变得可分析且可追踪。 RoT 走出第三条路 显式 CoT (Explicit CoT): 让模型把每一步推理都写出来,就像学生做数 ...
三星爆火递归模型TRM唯一作者被迫离职,内部不认可?
机器之心· 2026-01-23 06:37
编辑|冷猫 还记得三个月前,来自三星的一位研究员的独作论文发布即爆火,颠覆了递归推理模型架构,让一个仅包含 700 万个参数的网络,性能比肩甚至超越 o3-mini 和 Gemini 2.5 Pro 等尖端语言模型,震惊了大量业内研究人士。 这篇论文是大名鼎鼎的《Less is More: Recursive Reasoning with Tiny Networks》,带来了影响深远的 微型 递归模 型 TRM 。 关于这篇论文和模型的相关信息,可以参阅 我们之前的报道 。 按理说,发布成果的 唯一作者 Alexia Jolicoeur-Martineau ,在三星应当平步青云,带领全新的团队继续后续研究,用 TRM 的后续研究助力三星在人工智能领域 的进步。 可惜一切似乎都不尽如人意。突然间,Alexia 就发推说要离职。 从推文中明显能看出 Alexia 的怨气。 「在 TRM 取得巨大成功(为公司赚取数十亿美元)后,我在三星的生活变得一团糟。」 止不住的怨气来源于, Alexia 的工作,加拿大蒙特利尔三星先进技术研究所人工智能实验室(SAIL Montreal)取得的最大成绩,并未能够被内部认可。 听 ...
启动经费550万起!全球顶级AI人才看过来
机器之心· 2026-01-23 06:37
北京中关村学院 . 以下文章来源于北京中关村学院 ,作者北京中关村学院 Invitation 会议邀请 北京中关村学院是全新的高等教育科研机构,专注于人工智能与交叉学科领域的教育教学与科研创新。 秉持"极基础,极应用,极交叉"的颠覆式研究理念,"极经典,极前沿,极实战"的人才培养理念。 ZGCA x ZGCI 致全球英才: 北京中关村学院是全新的高等教育科研机构, 与全国31所双一流高校共建,专注于人工智能与交叉 学科的人才创新培养。 中关村人工智能研究院是年轻的探索型研发机构,深耕前沿技术研发与产业 转化。中关村两院秉持"极基础、极应用、极交叉"的颠覆式理念,以"培养AI领军人才"为使命。 我们拥有各层级人才项目自主评审权 ,将于2月6日面向全球英才召开 人才线上交流会暨第四届中 关村国际青年论坛宣导会 ,提供最直接权威的人才政策解读、在线答疑交流,诚邀全球顶尖人才参 加! Agenda 会议议程 ( 一 ) 两院整体情况介绍 (二) 两院科研情况介绍 (三) 海优人才政策介绍 时间:2026年2月6日 形式:线上宣讲 报名:扫描下方二维码 截止时间:2026年2月1日 咨询邮箱: talent@bjzgc ...
百万围观、HuggingFace多模态登顶,华人团队开源语音版「DeepSeek」海外爆火
机器之心· 2026-01-23 03:43
机器之心发布 在大模型快速迭代的背景下,语音交互正从「语音转文本(ASR)— 文本理解 — 文本转语音(TTS」的串联式架构,逐步走向端到端的实时语音生成。这一转变 不仅关系到延迟和自然度,也直接影响语音系统在真实生产环境中的可用性。 在级联式语音交互架构下,每个模块分别负责语音识别、文本理解和语音合成等任务,这种架构在早期的应用中取得了成功。但随着对实时性和低延迟要求的提 高,端到端语音交互系统逐渐成为主流,通过深度集成各个任务,减少中间转换步骤,显著提高响应速度,使交互变得更加即时和自然。 近期,FlashLabs 发布并开源了其实时语音模型 Chroma 1.0,其定位为全球首个开源的端到端语音到语音模型 。 Chroma 1.0 发布之后,便在社媒爆火,吸引了大量的关注。X 上的官推帖子已经突破了百万浏览量。 多位知名的 X 博主对 Chroma 1.0 给予了很高的评价。 一、从级联到端到端:Chroma 的系统定位 传统语音系统通常采用多阶段流水线: ASR → LLM → TTS 这一方案在准确率上已相对成熟,但在延迟、上下文连续性以及情绪一致性方面存在天然瓶颈。尤其在实时对话场景中,多模块串联 ...
vLLM团队官宣创业:融资1.5亿美元,清华特奖游凯超成为联创
机器之心· 2026-01-23 00:45
编辑|泽南 大模型推理的基石 vLLM,现在成为创业公司了。 北京时间周五凌晨传来消息,由开源软件 vLLM 的创建者创立的人工智能初创公司 Inferact 正式成立,其在种子轮融资中筹集了 1.5 亿美元(约合 10 亿 元人民币),公司估值达到 8 亿美元。 该公司认为,AI 行业未来面临的最大挑战不是构建新模型,而是如何以低成本、高可靠性地运行现有模型。 毫无疑问,Inferact 的核心是开源项目 vLLM,这是一个于 2023 年启动的开源项目,旨在帮助企业在数据中心硬件上高效运行 AI 模型。 | III | | | | | | | | | Sign in | 글도 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | ಇ vllm-project / vllm | | | Sponsor | 2 Notifications | | ಳಿ Fork 12.8k | | 8 | Star ( | 68.2k | | <> Code | · Issues (1.7k | 8% Pull requests 1.4 ...
一文速通「机器人3D场景表示」发展史
机器之心· 2026-01-23 00:45
Core Viewpoint - The article discusses the rapid development of robotics and the need for robots to understand the world similarly to humans, focusing on various scene representation methods in robotics [2][4]. Group 1: Historical Development of 3D Scene Representation - The integration of deep learning, computer graphics, and robotics has led to significant advancements, with Neural Radiance Fields (NeRF), 3D Gaussian Splatting, and Foundation Models emerging as promising innovations for achieving general embodied intelligence [8]. Group 2: Types of Scene Representation - Point Cloud: Represents scenes using discrete 3D points obtained from radar or camera sensors [10]. - Voxel: Discretizes 3D space into regular cubic grids, storing various information like density and occupancy [10]. - Mesh: Constructs continuous geometric representations of scenes through triangulated surfaces, offering higher detail [10]. - Signed Distance Function (SDF): Represents the distance from spatial points to object surfaces for continuous geometric representation [10]. Group 3: Applications in Robotics - In mapping and localization, existing methods have achieved remarkable results in SLAM, with neural scene representations enabling more precise and dense modeling, beneficial for obstacle avoidance [15]. - In the operation module, traditional methods excel in real-time performance and computational efficiency for grasping tasks, while neural network-based representations show better generalization capabilities for complex tasks [15]. - Navigation tasks benefit from neural scene representations, which provide accurate environmental reconstruction and better integration of semantic and language information for complex navigation tasks [16]. Group 4: Challenges and Future Directions - The article identifies three main challenges: 1. The need for end-to-end general networks versus modular systems, highlighting the limitations of modular intelligence in terms of generalization and transferability [19]. 2. Data scarcity in robotics compared to large language models, which hinders the development of neural scene representations and foundation models [20]. 3. Real-time performance bottlenecks in deploying neural scene representations, with a focus on cloud-based versus onboard deployment strategies [21]. Group 5: Contributions and Resources - The article provides a comprehensive and up-to-date review of various scene representation methods in robotics, detailing the advantages of different representations for each module [22]. - It highlights future research directions to address current technical limitations and encourages further advancements in this rapidly evolving field [22]. - An open-source project on GitHub has been launched to compile relevant articles and continue adding new research findings in the field of robotics [22].
幻觉率不到3%,王小川把医生版的DeepSeek免费了
机器之心· 2026-01-22 11:00
编辑|泽南 在医疗健康这一容错率极低的领域,大模型不再凭空「想象」,而是已变得严谨可靠、能引会搜:百川刚刚推出的新模型,实现了一个里程碑式的突破。 本周四,百川智能正式发布新一代大模型 Baichuan-M3 Plus,其面向医疗应用开发者,在真实场景下将医学问题推理能力推向了全新高度。新模型发布的 同时,接入 M3 Plus 的百小应 App 与网页版也已同步上线。 在 AI 领域,从来没有一款大模型可以做到 M3 Plus 这么高的医学场景准确率,百川还大幅提升了模型的推理效率,M3 Plus 的发布,标志着 AI 在医疗领 域的应用跨过了「敢用、好用、用得起」的关键门槛。 百川智能创始人、CEO 王小川表示,在垂直领域,M3 Plus 已经可以认为是医生版的 ChatGPT 或 DeepSeek,作为性能最强、推理效率最高的模型,可 大规模用于 AI 辅助医疗落地。 全球最低幻觉率 从看着像,到真的准 长期以来,医生与患者对 AI 的态度一直存在矛盾:人们既期待 AI 能分担繁重的工作,又恐惧它们「一本正经地胡说八道」。信任,是 AI 进入医疗领域的 最后一道墙。 在发布活动中,百川智能模型技术负责人鞠 ...
清华姚班校友刘壮团队再发力,无需归一化的Transformer性能进化
机器之心· 2026-01-22 11:00
Core Viewpoint - The article discusses the introduction of a new activation layer called Derf (Dynamic erf) that enables a normalization-free Transformer architecture, achieving stable training and outperforming traditional models that rely on LayerNorm [1][3]. Group 1: Derf Activation Layer - Derf is a simple point-wise layer that does not depend on statistical information, allowing it to replace LayerNorm or RMSNorm in Transformer models [5]. - The design of Derf incorporates learnable parameters, making it a flexible and effective alternative to normalization layers [18]. - The research indicates that with proper design, point-wise functions can not only replace normalization layers but also exceed their performance [14]. Group 2: Experimental Results - In experiments on ImageNet, Derf achieved higher Top-1 accuracy compared to LayerNorm, with ViT-Base reaching 82.8% and ViT-Large at 83.8% [21][22]. - For diffusion Transformers, Derf demonstrated lower FID scores, indicating better image generation quality [25]. - In speech tasks using wav2vec 2.0, Derf resulted in lower validation loss compared to both LayerNorm and DyT, showcasing its effectiveness in speech representation [28][29]. - In genomic tasks, Derf outperformed LayerNorm and DyT in DNA classification accuracy, with HyenaDNA achieving 85.7% and Caduceus at 87.3% [32][33]. Group 3: General Implications - The findings suggest that a simple point-wise layer like Derf can enhance the performance of Transformers without the need for normalization layers, indicating a shift in design philosophy for future models [39].