Workflow
量子位
icon
Search documents
谷歌最强大模型付费上线,在DeepSeek开源后被吐槽太贵
量子位· 2025-12-05 05:33
Jay 发自 凹非寺 量子位 | 公众号 QbitAI 奥特曼又得拉响红色警报了。 刚刚,谷歌再次扔出重磅炸弹—— Gemini 3 Deep Think 正式上线! 这款谷歌最新最强模型,推理能力确实有点离谱。 轻松把草图变成逼真3D场景,不仅结构还原到位,就连镂空花纹与光影都处理得明明白白。 甚至有网友拿它搞起了视觉艺术,一人一AI在虚拟宇宙里「不知天地为何物」。 看完这些demo,估计奥特曼只得再次咬牙切齿送上「happy for u」了。 (doge) 几句话就能搭出个3D多米诺骨牌解压游戏,运行相当丝滑。 Ultra用户今天就能通过Gemini聊天框里的「Deep Think」选项用起来了~ 高歌猛进的Gemini,又一次屠榜 不给对手任何喘息的机会,Gemini 3 Pro刚给OpenAI按在地上锤完,谷歌转手又扔出一重磅炸弹——Gemini 3 Deep Think。 相比之前的模型,新版本在复杂数学、科学推理和逻辑问题上都有大幅提升,旨在攻克那些连最强模型都难以解决的数学、科学和逻辑问题。 具体来说,在「深度思考」模式下,Gemini会开启迭代推理,能多轮打磨代码,生成更精细的程序,从而在可视 ...
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死
量子位· 2025-12-05 05:33
Core Insights - The AI industry is experiencing a paradigm shift, moving away from merely scaling models to focusing on smarter architectures, as highlighted by Ilya Sutskever's statement that the era of scaling laws is over [1][2][20]. - A new native multimodal architecture called NEO has emerged from a Chinese research team, which is the first scalable open-source model that integrates visual and language understanding at a fundamental level [4][19]. Group 1: Current State of Multimodal Models - The mainstream approach to multimodal models has relied on modular architectures that simply concatenate pre-trained visual and language components, leading to inefficiencies and limitations in understanding [6][8]. - Existing modular models face three significant technical gaps: efficiency, capability, and fusion, which hinder their performance in complex tasks requiring deep semantic understanding [14][15][17]. Group 2: NEO's Innovations - NEO introduces a unified model that inherently integrates visual and language processing, eliminating the distinction between visual and language modules [19]. - The architecture features three core innovations: Native Patch Embedding for high-fidelity visual representation, Native-RoPE for adaptive spatial encoding, and Native Multi-Head Attention for enhanced interaction between visual and language tokens [22][24][29][33]. Group 3: Performance and Efficiency - NEO demonstrates remarkable data efficiency, achieving competitive performance with only 3.9 million image-text pairs for training, which is one-tenth of what other leading models require [39]. - In various benchmark tests, NEO has outperformed other models, showcasing superior performance in tasks related to visual understanding and multimodal capabilities [41][42]. Group 4: Implications for the Industry - NEO's architecture not only enhances performance but also lowers the barriers for deploying multimodal AI in edge devices, making advanced visual perception capabilities accessible beyond cloud-based systems [43][45][50]. - The open-sourcing of NEO models signals a shift in the AI community towards more efficient and unified architectures, potentially setting a new standard for multimodal technology [48][49]. Group 5: Future Directions - NEO's design philosophy aims to bridge the semantic gap between visual and language processing, paving the way for future advancements in AI, including video understanding and 3D spatial perception [46][51]. - The emergence of NEO represents a significant contribution from a Chinese team to the global AI landscape, emphasizing the importance of architectural innovation over mere scaling [53][54].
华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升
量子位· 2025-12-05 02:13
答案就藏在Transformer的核心机制里—— Attention 。 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 是时候给 Transformer 的大动脉 动刀子 了。 因为即便它享有当下AI世界基石的地位,但自身问题也是非常明显: 一旦遇到复杂的数学题或者需要多步逻辑推理的时候,就开始一本正经地胡说八道了…… 问题究竟出在了哪里? 传统Attention机制本质上像是一种配对比较:每个词只和另一个词直接发生关系,生成一个注意力权重。 它可以说是直接狙击了Attention机制的核心痛点, 使用更高阶注意力 ,就能有效地建模多跳、多点之间的复杂关联。 并且从实验结果来看,效果也是有点惊艳在身上的。 只要换上Nexus这个新架构,模型在数学和科学等复杂推理任务上的能力,都能立马实现大幅飙升,而且还是 参数零增 的那种。 妙哉,着实妙哉。 这种架构虽然擅长捕捉长距离依赖,但在建模复杂、多跳、多点之间的逻辑关系时却显得力不从心了。 例如它能轻松理解"A认识B",但如果要它理解"张三通过李四认识了王五",即多跳、多点之间的复杂、间接关系,它的脑回路就显得不够深, 推理能力的天花板瞬间触顶。 现在,这个 ...
下周三!量子位的这件大事就要来了|MEET2026
量子位· 2025-12-05 02:13
MEET组委会 发自 凹非寺 量子位 | 公众号 QbitAI 抓紧,真的只剩 一周 时间了! 因为AI圈一年一度绝对不容错过的盛宴马上就要来了—— MEET2026智能未来大会 。 而且现在大会的内容已经可以剧透,真就是光看嘉宾就知道有多重磅了,包括清华大学张亚勤、孙茂松、智源研究院王仲远等学术界的大咖, 国内产业界有百度、小米、商汤等,国外有谷歌云、亚马逊云科技、高通等。 不仅如此,议题内容也是相当之丰富,从大语言模型到多模态,从具身智能到自动驾驶,从云计算到具体应用,可以说是涵盖了与当下主流AI 相关的方方面面。 还有还有,如果你也希望获得最前瞻的观点,那MEET也是绝对不容错过的大会,包你有收获和启发~ 是不是看到这就已经开始心动了?心动不如行动, 线下报名通道 这就奉上: 那么MEET2026智能未来大会还有什么亮点?我们继续往下看。 亮点一:重磅GenAI对话+前沿Agent圆桌,深挖年度最热议题 今年大家还在问AI会不会取代人类吗?可能已经没那么焦虑了—— 因为AI开始学会自己动手了。 Robotaxi不再只是PPT里的概念,而是真的在街头载客;Agent也不再只是写写代码、回回邮件,而是能自主 ...
量子位编辑作者招聘
量子位· 2025-12-05 02:13
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 主编 :具备选题和带队能力及经验; 主笔 :具备原创深度稿件能力; 编辑 :热爱表达,喜欢挖掘信息,能够用大白话让所有人看懂AI新进展。 跟进AI基建层新进展,包括但不限于芯片、AI Infra、云计算领域新进展,核心玩家动态; 做前沿论文、开源社区、技术大会 (Hot Chips、NeurIPS、MLSys) 技术报告大众化解读; 参与核心采访,对话产业专家、技术大牛、撰写AI云落地案例。 任职要求: AI财经商业方向 岗位职责: AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、 ...
市值3055亿!摩尔线程敲钟,国产通用GPU第一股来了
量子位· 2025-12-05 02:13
杰西卡 发自 凹非寺 量子位 | 公众号 QbitAI 国产通用GPU第一股,正式登陆! 摩尔线程 今日敲钟,开盘价约 650元 ,较114.28元的发行价高出 469% ,开盘市值 超3055亿元 。 从今年6月30日IPO申请受理,到9月26日成功过会,摩尔线程仅用时 88天 ,创科创板IPO最快过会纪录。 创始人兼CEO张建中在GPU这一行业已经深耕近二十年,创业前是英伟达中国总经理。在启动上市之前,摩尔线程已完成数轮融资,累计融 资金额达数十亿元。 敲钟前,摩尔线程背后投资阵容豪华,已吸引了中国移动、深创投、上海国盛、中银国际、建银国际、招商局创投、中关村科学城、红杉资本 等知名国资和风投机构站队。 "国产GPU第一股"敲钟 刚刚,"国产GPU第一股"摩尔线程登陆科创板,正式上市。 公司首次公开发行后总股本为4.7亿股,首次公开发行股票数量7000万股。 发行价为 114.28元/股 ,募资总额80亿元,创今年 A股上市新股最高纪录 。 开盘价 650元 ,较114.28元的发行价高出 469% ,开盘市值 超3055亿元 。 | N摩尔-U 二 | | | 660.00 +545.72 +477.5 ...
2025年的冬天,上海凭什么被称为“世界具身智能第一战场”?
量子位· 2025-12-05 02:13
王琛 投稿 量子位 | 公众号 QbitAI 2025年的冬天,黄浦江畔的风带着些许湿冷,但张江科学会堂周边的空气,却因高密度的算力运转而近乎沸腾。 距离 GDPS 2025全球开发者先锋大会 启幕仅剩 6天 。这不是一场简单的赛事倒计时,而是中国具身智能产业跨越"达尔文之海"的助推节 点。 如果说过去几年是AI在数字世界的演练,那么此刻,则是硅基生命向物理世界发起的一次集体远征。业界将 12月12日 这场大赛,称为"物理 世界的第一张入场券"。 站在2025年的年终节点,我们将以上海为例,揭示中国具身智能产业的飞速进展: 为什么是上海?为什么是现在? 懂开发者的城市,才是好生态 在2025年的全球版图中,上海不仅是一个地理坐标,更代表了一种"服务型政府"的极致生态。这种生态的核心,在于对开发者最深层痛点的洞 察: 不同于简单的资金漫灌,上海不仅给钱,更给"路"和"粮"。 政府引导企业打破数据孤岛,正在构建全行业通用的"物理世界常识库"。 物理折叠:重新定义"上海速度" 场景开放:整座城市就是"试验田" 当我们还在讨论机器人能否上路时,上海已经把 高端制造、医疗康养、城市治理 等多达百个核心场景的大门向企业敞 ...
黄仁勋做客美国第一播客:每天都在担心英伟达倒闭
量子位· 2025-12-04 09:55
Core Insights - The conversation highlights a fundamental shift in AI from "retrieval" to "reasoning," where AI generates answers based on learned knowledge structures rather than simply retrieving pre-stored data [6][7][9] - Huang emphasized that AI's core mechanism has transformed into a process of learning and immediate logical reasoning, likening data centers to new factories producing intelligent tokens [9][13] - The discussion also touched on the challenges of energy consumption in AI expansion, with Huang noting that efficiency improvements in chips are crucial to meet growing demands without exhausting global energy resources [14][16] Group 1: AI Evolution - The transition from "retrieval" to "reasoning" represents a significant change in how AI operates, moving from searching for answers to generating them based on learned knowledge [6][7] - Huang described deep learning as a process where a massive neural network learns from vast amounts of input and output examples, functioning as a universal function approximator [11][12] - The concept of data centers as "AI factories" was introduced, where energy and data are inputs, and intelligent tokens are outputs, marking a new era in manufacturing [13] Group 2: Impact on Workforce - Huang addressed concerns about AI replacing jobs, suggesting that while tasks may change, jobs will not disappear; instead, people will become more focused on problem-solving and decision-making [16][17] - The future of programming will involve using natural language, significantly lowering the technical barrier and allowing everyone to become a programmer [18][19] - Huang acknowledged the potential for a future internet filled with AI-generated content, but he believes that as long as the information is verified, it can enhance knowledge acquisition [19] Group 3: Technological Advancements - The traditional Moore's Law is slowing down, but in the realm of AI, accelerated computing is allowing for a rebirth of the law in a new form [20][21] - Huang explained the difference between CPUs and GPUs, noting that GPUs are better suited for AI due to their ability to handle massive parallel computations [22][24] - The cost of AI computing has decreased by a factor of 100,000 over the past decade, akin to a revitalized Moore's Law [24] Group 4: Company History and Challenges - Huang recounted a critical moment in NVIDIA's history when the company was just 30 days away from bankruptcy, highlighting the importance of honesty and transparency in business [33][34] - The early struggles included a significant technical error that nearly derailed the company, but a candid conversation with Sega's CEO led to a lifeline that saved NVIDIA [34][36] - Huang's commitment to innovation, even in the face of skepticism, has been a driving force behind NVIDIA's success [30][32]
“豆包手机”在二手市场价格都翻倍了……
量子位· 2025-12-04 09:55
嘻疯 发自 凹非寺 量子位 | 公众号 QbitAI "豆包手机"刚发售, 火到 3万 台首批备货被一抢而空 。 甚至还有不少人在海鲜市场上溢价转卖,加价1500、直接翻倍的都有: 关键这还是在官方明确表示 各种功能体验还不够完善的情况下 …… 说的就是 搭载 豆包 手机助手技术预览版的工程样机nubia M153 。 不久前,字节豆包团队刚传出了要和中兴合作打造AI手机的消息,随后脚第一代产品就上架了。 nubia M153以 售价3499元 ,仅面向想要体验豆包手机助手的行业人士少量发售 。 官方明确表示,在软件方面," 尚无法保证成熟手机产品的功能完善度 " , 比如影像等功能可能和市场主流旗舰机存在差距。 nubia M153的软件,大概每两周会进行一次更新。 目前,各方的实测体验也相当丰富,玩法涵盖跨App指令操作等多种场景。不少开发者和行业人士评价称"豆包勾勒出了AI时代手机的雏形"。 也有用户反馈,从实际操作时长来看,豆包助手目前的执行速度仍略慢于人工操作,但优势在于能显著减少用户的筛选和决策成本。 除此之外,据供应链消息人士向蓝鲸新闻透露,这次"豆包手机"确实是试水市场,"售罄后并未追加物料采 ...
大模型被确诊「视觉文盲」!多校联合提出MILO,为它植入空间想象力
量子位· 2025-12-04 09:55
当前大多数方法采用 "语言描述式调优" ,即通过文本符号让模型学习空间概念,却 从未真正"看见" 这些概念在视觉上的表现,导致模型出 现 "视觉文盲" 现象——即无法在生成回答时关注到正确的视觉区域。 MILO团队 投稿 量子位 | 公众号 QbitAI 大模型总是无法理解空间,就像我们难以想象四维世界。 空间推理是人类理解三维世界结构的核心认知能力 ,也是多模态大语言模型 (MLLMs) 在实际应用中面临的关键挑战之一。 如图,基线模型在回答关于"木椅"的问题时,其视觉注意力并未集中在目标区域,而是分散在无关区域。这反映出当前MLLMs在空间语义与 视觉感知之间 缺乏跨模态对齐 ,无法像人类那样通过心理想象来支撑空间推理。 MILO:为模型植入"空间想象力" 为解决上述问题,由多高校、机构组成的研究团队提出了 MILO ( M plicit spat I a L w O rld modeling) ,一种隐式空间世界建模范 式,通过引入视觉生成反馈,将符号推理与感知经验隐式地结合起来。 语言调优阶段: 在视觉生成调优之后,继续使用空间指令数据对模型进行语言层面的微调。 通过这种方式,MILO使MLLMs能够 ...