Scaling Laws

Search documents
「Tokens是胡扯」,Mamba作者抛出颠覆性观点,揭露Transformer深层缺陷
机器之心· 2025-07-09 09:52
机器之心编译 原文作者:Albert Gu 编辑:陈陈、杜伟 「Tokenization(分词)是 Transformer 模型为弥补自身缺陷不得不戴上的枷锁。」 近日,Mamba 作者、CMU 助理教授、Cartesia AI 首席科学家 Albert Gu 撰写了一篇新博客,探讨了状态空间模型(SSM)和 Transformer 之间的权衡,并提出了这 样一种观点。 这篇博客改编自 Albert Gu 过去一年来多次进行的一场演讲。虽然演讲内容通俗易懂,面向比较广泛的受众群体,但其中的一些有趣的见解、观点和原理阐释,相 信对专业研究者也不乏启发价值。 在社交媒体 X 上,Albert Gu 抛出了「tokens are bullshit」的观点,并预告了接下来要发布的重大架构进展。 图源: https://x.com/_albertgu/status/1942615020111876248 评论区的很多网友赞成 Albert Gu 的观点,认为移除 tokenization 会在计算效率方面带来积极影响。 状态空间模型 本文首先定义了什么是状态空间模型(State Space Model,SSM)。 1. ...
训练自2.67亿个单细胞数据的AI虚拟细胞模型——STATE,无需实验,预测细胞对药物或基因扰动的反应
生物世界· 2025-07-07 03:17
近日, Arc 研究所 发布了其 第一代虚拟细胞模型—— STATE ,该虚拟细胞模型旨在 预测各类干细胞、癌细胞和免疫细胞对药物、细胞因子或基因扰动的反 应。 STATE 模型基于 1.67 亿个细胞的观察数据以及超过 1 亿个细胞的扰动数据进行训练,这些数据涵盖了 70 种细胞系。该论文已于近期发表在了预印本平台 bioRxiv 上。 撰文丨王聪 编辑丨王多鱼 排版丨水成文 人体是由 细胞 (Cell) 构成的马赛克,其中,免疫细胞通过增强炎症来对抗感染;干细胞可以分化成各种组织;癌细胞避开调控信号而无节制地分裂。然而,尽 管这些细胞之间存在显著差异,但这些看上去截然不同的体细胞都携带着 (几乎) 相同的基因组。 细胞的独特性不仅源于 DNA 的不同,更在于每个细胞对 DNA 的使用方式。换句话说,细胞的特性源自基因表达的变化,即基因在不同时刻的"开启"和"关闭"。 细胞的基因表达模式——以 RNA 分子的形式体现,而 RNA 分子本身又是从 DNA 转录而来,基因的表达不仅决定了细胞的类型,还决定了细胞的状态:细胞基 因表达的变化可以揭示细胞如何从健康状态转变为炎症状态,甚至癌变。通过测量有或无化学或基 ...
深度|Sam Altman:创业者不要做OpenAI核心要做的事,还有很多领域值得探索,坚持深耕可长成比OpenAI更大的公司
Z Potentials· 2025-07-03 03:13
图片来源: Y Combinator Z Highlights Sam Altman 是美国著名创业者和投资人,曾任 Y Combinator 总裁,现任 OpenAI CEO 。他致力于推动人工智能发展,强调技术与社会责任并重。 本次对 话为 Sam Altman 与 Y Combinator 合伙人 Garry Tan 的对谈。 初心与人才汇聚 G arry Tan : Sam ,非常感谢你能来,也谢谢你带来的种种启发。 OpenAI 本身就是一个激励无数雄心勃勃创业者的存在。我们就从这开始吧:在 OpenAI 早期,有哪些看起来无足轻重、但后来证明至关重要的决策? Sam Altman : 记忆功能 是我今年最喜欢的一个发布。 OpenAI 内部可能很多人不这么想,但我真的很喜欢它。它指向我们真正想去的地方:一个了解 你、连接你所有内容、并主动帮助你的个人 AI 。它不会只是等待你来提问,而是始终运行在后台,知道什么时候提醒你,什么时候替你完成任务。它将嵌 入你使用的每一项服务中。记忆,就是这个未来的第一道入口。 Sam Altman : 其实,最重要的决策之一就是 " 决定要做 " 这件事本身。我们差 ...
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
3 6 Ke· 2025-06-20 12:00
超级智能(Superintelligence)是处于 AGI 之上、甚至通用能力超过人类的更高维 AI 发展方向。 学术头条在不改变原文大意的情况下,对整体内容做了精编,如下: 然而,在 Meta AI 研究员 Jack Morris 看来,Altman 提到超级智能的"工程问题",在于"构建大量适用于不同任务的 RL 环境,并训练 LLM 同时处理所有 这些任务"。他认为,这一由 OpenAI 等公司当前大力推进的路径——基于 LLM 的 RL——根本无法构建超级智能。 "我谦卑的预测是:LLM 将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练,这将产生在广泛任务上越来越有用的 LLM。但它不会成为一个单一的超级智能模型。" Morris 在一篇题为"Superintelligence, from First Principles"的博客中,探讨了构建超级智能的 3 种可能方式:完全由监督学习(SL)、来自人类验证者 的强化学习(RL)、来自自动验证器的 RL。 扎克伯格不惜以一亿美金年薪挖角 OpenAI 等竞争对手的动作背后,便暴露了 Meta 等头部玩家追求"超级智能"的巨大野 ...
Lex Fridman 对谈谷歌 CEO:追上进度后,谷歌接下来打算做什么?
Founder Park· 2025-06-06 15:03
久违的 Lex Fridman 又来采访 AI 行业的关键人物了。 这次是 Google CEO Sundar Pichai。过去半年,Google 凭借 Gemini 2.5 完成了 AI 竞赛的追赶,某种意 义上说,Google 和 OpenAI 现在站在了同一起跑线。 Lex 的播客一向聊的广且深,这次也不例外,Pichai 这一年的困境、核心产品搜索的未来方向、模型和 Sclaing Law,AI 编程、具身智能、AGI、ASI 还是 AJI 的探讨。 很多时候,问对了问题,好的采访就完成了一大半。Pichai 的回复,确实有蛮多干货。 2 小时多的播客,编译时我们做了一些删减。 原始播客: https://www.youtube.com/watch?v=9V6tWC4CdFQ&t=2711s TLDR: 超 6000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 谷歌对于未来搜索的设想是,在搜索中部署了最强的模型,这些模型会围绕每一个查询执行多路 径检索,并整合信息,最终把用户引向真正有价值的内容。 随着 AI Mode 功能的成熟,谷歌会将其迁移到主页面上,可以看作是一个连续的统 ...
DeepSeek开源引领AI普惠化浪潮
Wind万得· 2025-03-02 22:40
以下文章来源于RimeData 来觅数据 ,作者来觅研究院 RimeData 来觅数据 . 全面的一级市场数据平台 导读: 2025年2月24日起,DeepSeek开始为期5天的代码开源周,开源了FlashMLA、DeepEP、DeepGEMM等代码库。2月28日,OpenAI发布其最 新一代基础模型GPT-4.5(非推理模型),号称是迄今为止数据规模最大、知识最为丰富的聊天模型。可见,AI正以惊人的速度在发展。DeepSeek 的开源策略对行业带来哪些影响?全球AI大模型的进展如何?GPT-4.5模型有何特点?行业投融资情况如何?本文尝试分析和探讨。 01 DeepSeek开源策略影响 DeepSeek,全称为杭州深度求索人工智能基础技术研究有限公司,成立于2023年,是一家由知名私募巨头幻方量化孕育而生的创新型科技公司,专 注于开发先进的大语言模型(LLM)及相关技术。自成立以来,DeepSeek已相继发布了多款产品,包括DeepSeek Coder、DeepSeek LLM、 DeepSeek V2、DeepSeek V3、DeepSeek R1等。 2024年12月26日,DeepSeek正式上线De ...
AI 月报:马斯克加速 GPU 竞赛;大模型真撞墙了? 风口转到 Agent
晚点LatePost· 2024-12-11 14:30
新栏目上线试运行。 文丨 贺乾明 编辑丨黄俊杰 到了 11 月,越来越多的人说,成就 OpenAI 的这条路似乎撞到了墙: 多家媒体报道,Google、OpenAI、Anthropic 等公司,开发下一代模型时,都没能像前些年那样让模型能力大幅提升。 硅谷风投 a16z 创始合伙人、投资了 OpenAI 等多家大模型公司的马克·安德森(Marc Andreessen)说:"我们以相 同的速度增加(GPU),根本没有智能提升。" OpenAI 联合创始人、前首席科学家伊尔亚·苏茨克维 (Ilya Sutskever) 说:"2010 年代是扩大规模的时代,现在我 们再次回到了需要奇迹和新发现的时代。" 这些公司的高管否认了 "撞墙" 的说法,也有证据表明他们仍在想办法突破,毕竟建设更大规模的算力中心的势头并没 有放缓,甚至还在加速。 他们同步在大模型应用上倾注更多的资源。从 OpenAI、Anthropic 到 Google、微软,再到风投机构,都把 Agent——让 大模型理解人类指令,调度数据库和工具完成复杂任务的系统——当作下一个赛点。 11 月,ChatGPT 迎来两周年,却是 OpenAI 官方相对沉 ...
发布视频生成模型、日均交互 30 亿次,MiniMax 第一次线下活动记录
晚点LatePost· 2024-09-02 15:40
"如果我们在竞争中打不赢,就应该被淘汰,没有其他选择。 文丨程曼祺 由 MiniMax 视频生成大模型制作的短片《魔法硬币》,MiniMax 称其中每个场景都由大模型生成,未经任何修改。 发布会所在的 "西岸漩心" 被巨大的螺旋式阶梯环绕,游人可沿着步道一直走到顶层露台,眺望浦东风景。这 是一条上升、平缓,然后再上升、平缓,最终达到顶点的路。此时 AI 领域似乎也处在螺旋中的相对平缓期。 当 MiniMax 创始人闫俊杰放映完由视频生成模型制作的动画短片后,观众席传来数声尖叫。至少 3 位在场的 投资人说, 视频生成模型是他们当天最在意的成果 。 但视频生成模型本身不新鲜了,自 OpenAI 年初发布 Sora,数家中国公司跟进这一方向。 "期货" 也在成为行业关键词:GPT-5、GPT-4o 的语音视频功能、Sora……它们要么上线晚于预期,要么亮相多 时后仍未大规模公测。据我们了解,国内 "六小龙"(MiniMax、月之暗面、智谱 AI、百川智能、零一万物、 阶跃星辰 6 家大模型独角兽)今年的基础模型或多模态模型的更新时点也多晚于原计划。 发布结束后,闫俊杰被问起如何看待技术进展放缓。他说,一条上升、平 ...
中国首批核聚变创业者谭熠:它总在你绝望时又给你希望|TECH TUESDAY
晚点LatePost· 2024-07-30 13:15
"核聚变永远还有 50 年是对的,现在不到 10 年可能也是对的。" 文丨 贺乾明 编辑丨程曼祺 "如果核聚变发电就是实现不了呢?" 听到这个问题,在清华大学研究核聚变 20 多年的谭熠沉默了几秒,然后笑了起来。他觉得这个问题 "根本没道理",因为核聚变 "从科学上是可行的"。 70 多年前的曼哈顿工程期间,科学家就了解核聚变原理。二战结束后,美国很快就用它造出了氢弹。但用核聚变发电的研究几经起伏,冷战后几乎停滞了 20 多年。 情况在 2021 年发生变化 ,美国的核聚变公司 Helion 宣布把等离子体加热到 1 亿摄氏度,实现原本只有政府项目才能做到的壮举;从麻省理工分拆的核聚变 公司 CFS 开发出形成更强磁场的高温超导磁体,把低成本建造能实现核聚变装置可能性大幅提高。 核聚变创业热潮出现:OpenAI 联合创始人山姆·阿尔特曼、PayPal 联合创始人彼得·蒂尔、比尔·盖茨、乔治·索罗斯等硅谷科技名流和富豪,以及 Google、DFJ 等机构在短时间里朝核聚变行业投资了 30 多亿美元,是美国政府数年来累计拨款的数倍。 这一年,谭熠创办核聚变公司星环聚能,担任首席科学家,在 2022 年 6 月拿到 ...
对话香港大学马毅:“如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”
晚点LatePost· 2024-06-04 10:05
文丨程曼祺 编辑丨宋玮 黄俊杰 当大部分人都相信一件事或趋势时,不同意的人可以选择沉默,也可以大声说出来。前者是少数派中的多数派,后者少数派中的少数派。 马毅就是一个少数派中的少数派。 自 2000 年从伯克利大学博士毕业以来,马毅先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研院、上海科技大学、伯克利大学和香港大 学,现担任香港大学计算机系主任和数据科学研究院院长。 他最早将 "压缩感知" 技术应用于计算机视觉领域,在人脸识别、物体分类等任务上产生了巨大影响。 知名 AI 学者李飞飞是马毅在 UIUC 时参与招聘的第一个华人助理教授,ResNet 一作何恺明是马毅在微软亚研院负责视觉组时招的第一个新员 工。 少数派中的少数派。 马毅公开表达时直言不讳。AI 业界惊叹于 GPT 等大模型的威力,担心 AI 可能毁灭人类,如图灵奖得主杰弗里·辛顿(Geoffrey Hinton) 和 OpenAI 发起者之一伊隆·马斯克(Elon Musk)就多次将 AI 类比为原子弹,呼吁监管。 "说现在的 AI 危险的人,要么是无知,要么是别有目的。" 马毅在 twitter 上回应 AI 威胁论。 强烈的观点来自他对 ...