量子位
Search documents
阶跃星辰不再低调:巨额融资,印奇加入,“1+3”核心决策层浮出水面
量子位· 2026-01-27 08:32
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 你也被刷屏了吧?向来低调的阶跃星辰一口气抛出了两个深水炸弹。 一是完成超50亿元人民币的B+轮融资 。 这个数字刷新⼤模型赛道过去12个月单笔融资纪录,且超过大模型六小虎中另外两家——智谱和MiniMax——的IPO募资金额。 另一个更具结构性变化的消息也在此时公布: 印奇正式加入阶跃星辰核心决策层,担任董事长 。 印奇是谁?或许能用几个tag来标记他至今的传奇路径。 清华姚班首批校友,AI四小龙旷视科技创始人,现千里科技董事长。 是中国AI创业史上 一位 极少数横跨AI 1.0时代 (CV) 与AI 2.0 (大模型) 时代,同时又完成过产业落地与硬件闭环的样本人物。 从这一刻起, 阶跃的核心决策层班底,明晰呈现出"1+3"模式 。 每一个人都大名鼎鼎,单拎出来都是一部行业简史。 但对阶跃来说,豪华阵容只是最不值一提的表象。 能看懂这个班底背后的故事,就不难看懂阶跃为什么从以前,到现在,都反复强调并坚持自己"AI+终端"的战略 。 借这个时间,借这个新动态,刚好和大家一起来起底一下阶跃星辰"1+3"战队背后的事儿。 起底阶跃"1+3"核心团队 1: 指新 ...
DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型,性能媲美Gemini-3 Pro
量子位· 2026-01-27 08:32
henry 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,DeepSeek开源了全新的OCR模型—— DeepSeek-OCR 2 ,主打将PDF文档精准转换Markdown。 相较于去年10月20日发布的初代模型,DeepSeek-OCR 2的核心突破在于打破了传统模型死板的"光栅扫描"逻辑,实现了 根据图像语义动态 重排视觉标记(Visual Tokens) 。 为此,DeepSeek-OCR 2弃用了前作中的CLIP组件,转而使用轻量化的语言模型(Qwen2-0.5B)构建 DeepEncoder V2 ,在视觉编码阶 段就引入了"因果推理"能力。 这一调整模拟了人类阅读文档时的因果视觉流,使LLM在进行内容解读之前,智能地重排视觉标记。 性能上,DeepSeek-OCR 2在仅采用轻量模型的前提下,达到了媲美Gemini-3 Pro的效果。 在OmniDocBench v1.5基准上,DeepSeek-OCR 2提升了 3.73% ,并在视觉阅读逻辑方面取得了显著进展。 | Model | | | | V-token™ax Overall ↑ Formula OM ↑ TableTEDs ↑ ...
机器人看不清,蚂蚁给治好了
量子位· 2026-01-27 06:57
金磊 发自 杭州 量子位 | 公众号 QbitAI 天下苦机器人看不清 透明 和 反光 物体久矣。 毕竟就连小动物甚至人,有时候一个不小心,都会搞笑地撞到干净的玻璃门…… 不仅如此,若是让机器人拿起 透明的玻璃杯 、 反光的不锈钢 物体,他们也会经常出现"突然瞎了"的情况。 这一切的问题,正是出在了机器人的眼睛—— 深度相机 。 因为无论是基于结构光还是双目立体视觉的深度相机,它们的工作原理都是依赖物体表面对光线的稳定反射。 而透明材质会让光线直接穿透,高反光材质则会将光线漫反射到四面八方,导致传感器无法接收到有效的回波信号,从而产生大量缺失或错 误的深度值。 对比一下我们人类看到的场景和机器人眼中的场景,就一目了然了: 毫不夸张地说,这类让机器人睁眼瞎的问题,一直是阻碍它们安全地走进家庭、商场和医院等场景的 Big Big Big Problem! 但现在,随着一项新技术的提出,机器人的眼疾终于算是被治好了—— 蚂蚁集团的具身智能公司 蚂蚁灵波 (RobbyAnt),开源了全球看得最清楚的深度视觉模型, LingBot-Depth 。 同样是上面两个场景,我们直接来看下在LingBot-Depth加持下的效 ...
奥特曼承认OpenAI路线走偏了,以及“写代码将变得不再重要”
量子位· 2026-01-27 05:37
梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 大家是真敢问,奥特曼也是真敢说! 刚刚,奥特曼拉着一屋子AI相关从业者搞了一场直播,围绕 软件工程、商业、模型开发、科学研究、教育、安全 等问题,奥特曼进行了一场 超「有问必答」的对谈。 问题一个比一个劲爆,奥特曼这边也是诚意满满,主打一个:奥特曼大舞台,有问题您就来~ AI 正在重新定义工作、技术和教育这三件事 Q :如果AI让写代码这事儿变得又快又便宜,那是不是意味着未来市场会减少对软件工程师的需求? Sam Altman: 我认为,未来从事工程师工作的人数 可能会「大幅增加」。 不仅如此,未来AI能让工程师捕捉到更多工作价值,让计算机实现预期功能,这也意味着你花在敲代码、调试代码上的时间,会明显减少,更 多精力会用在「让系统替你把事办成」这件事上。 甚至,我们会大量使用那种只为一个人、或者极小群体量身定制的软 件 , 每个人都会不断给自己定制工具。 未来从事工程师工作的人数可能会 大幅增加 。 我们花在写代码、调试代码上的时间将会明显减少,更多精力会用在 让系统替我们把事办成 上。 在今后的几年,我们会大量使用只为一个人、或极小群体 量身定制 的软件 ...
3D版Nano Banana来了!AI修模成为现实,3D生成进入可编辑时代
量子位· 2026-01-27 03:53
星星 发自 凹非寺 量子位 | 公众号 QbitAI 过去一年,AI的主战场几乎被大模型、生图和生视频占满。2026年伊始,市场终于开始把目光投向一个更难、也更关键的领域: 3D生成 。 1月23日,Google收购3D生成公司Common Sense Machines的消息传出,后者整个团队并入DeepMind;1月26日,Google又迅速宣布与 Epic Games的合作。市场普遍猜测: 3D 版本的"Nano Banana",是不是已经不远了? 但率先将这一能力产品化的,是中国团队。 本周末, 全球领先的3D生成平台 H yper3 D 发布了Rodin Gen-2 Edit ,推出基于自然语言的3D模型局部编辑功能,率先实现3D版Nano Banana——这是业内首个将 "3D生 成"与"3D编辑" 整合为完整工作流 的商用产品,3D生成正式进入可编辑时代。 与以往只能"抽卡"的逻辑不同,Rodin Gen-2 Edit支持两种核心路径: 操作逻辑简单直接: 框选需要修改的区域,输入文字指令 ,即可完成局部调整。 例如,只需框选机甲的双臂区域,输入提示词"双手改成大炮": 在Hyper3D内文/图生 ...
斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元
量子位· 2026-01-27 02:33
henry 发自 凹非寺 量子位 | 公众号 QbitAI 大模型持续学习,又有新进展! 来自斯坦福、英伟达等研究机构的最新研究,针对解决开放的科学问题,提出全新思路—— Test-Time Training to Discover (TTT-Discover) 。 其基于开源模型gpt-oss-120b,在多个领域达到SOTA,优于人类专家与闭源前沿模型。 总的来说,这篇论文的核心思路是 在测试时进行强化学习 (Reinforcement Learning at Test Time) ,并主要体现在两点: 1.学习目标(Learning Objective) 不同于传统强化学习侧重于提升所有任务的"平均奖励"以实现泛化,TTT-Discover采用 熵目标函数(Entropic Objective) 。 它通过调整权重倾向于奖励最高的动作(而非整条轨迹)。 该方法不再沿用"测试时缩放"(Test-time Scaling)只通过Prompt调度冻结模型的做法。 而是在测试阶段, 针对单个具体问题,引入强化学习(RL)对模型权重进行更新。 这种"测试时训练"使模型能够从该问题的失败尝试中实时获取经验,更新参数 ...
量子位编辑作者招聘
量子位· 2026-01-27 02:33
我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 编辑部 发自 凹非寺 量子位 | 公众号 QbitAI 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内 ...
多模态大模型中Attention机制暗藏「骗局」,需用一个公式修正丨上大×南开
量子位· 2026-01-27 02:33
Intcomp团队 投稿 量子位 | 公众号 QbitAI Attention真的可靠吗? 近年来,Vision-Language Models (VLMs) 在多模态理解任务中取得了显著进展,尤其是在视觉问答、图像理解和视频理解等场景中, 模型通常通过 language-to-vision attention 来衡量视觉token与文本之间的相关性,并据此进行visual token pruning,以降低推理成 本、提升运行效率。 然而,一个长期被忽视的问题是: attention本身是否真的能够作为"语义重要性"的可靠指标? 在最新研究中,上海大学曾丹团队系统分析了主流VLM中attention的行为模式,发现一个关键却容易被忽略的现象—— attention并非只由 语义决定,而是受到显著的结构性偏置影响 。如果直接使用这些带偏置的attention进行visual token pruning,往往会在无意中保留不重 要的视觉区域,同时丢失真正有助于任务理解的关键信息。 更为严重的是,当attention被用于visual token pruning时,这种位置偏置会被进一步放大,从而导致剪枝结果系统 ...
11.77亿资本押注卡车新势力「一哥」,L2升维路线率先在商用车跑通!
量子位· 2026-01-27 02:33
贾浩楠 发自 凹非寺 量子位 | 公众号 QbitAI 被公认技术门槛高、商业化挑战大的硬核赛道,也总有玩家能够逆周期成长—— 本轮融资的投资方,包含了普华资本、ABC Impact(淡马锡旗下投资公司)、欣旺达、前海淏天、瀚棠置业、临沂国科、长兴创强基金、山 东国控资本、联想创投、大湾区基金、光跃投资、红山基金。国资、外资、产业资本齐上阵,抓紧窗口赶上了DeepWay深向上市的末班车。 融资朋友圈不断"扩容",在DeepWay深向是常态,比如过去5年中,DeepWay深向曾在A轮融了5轮,B轮3轮……目前公开可查的金额为19.8 亿元,加上这次的11.77亿,已经超30亿。 这一方面证明了这家自动驾驶卡车公司的"抢手"程度。 5年间,DeepWay深向靠卖新能源重卡实现年营收数十亿元;加速度更加不容忽视,刚刚过去的2025年单季度交付量就超过2024全年—— 但投资人看好的,不仅是卖车的业绩,毕竟这一逻辑还无法支撑DeepWay深向 公开道路场景下的"自动驾驶卡车第一股" 的估值和潜力。 正向定义打造新能源重卡, 当年百度商用车领域唯一获授权使用百度Apollo技术 、新能源重卡三电全栈自研…… 穿透Dee ...
那个用半成品刷爆SOTA的Qwen3超大杯推理版,现在正式上线
量子位· 2026-01-26 15:30
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 新一年的基础模型竞逐,没想到是阿里千问率先出手了! 就在刚刚,Qwen3-Max-Thinking正式版突然发布,当即刷新全球SOTA: 在涵盖科学知识、数学推理、代码编程的19项权威基准测试中,赶上甚至超越GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等TOP 闭源模型。 | Capability | Benchmark | GPT-5.2- | Claude- | Gemini | DeepSeek | Qwen3-Max- | | --- | --- | --- | --- | --- | --- | --- | | | | Thinking | Opus-4.5 | 3 Pro | V3.2 | Thinking | | Knowledge | MMLU-Pro | 87.4 | 89.5 | 89.8 | 85.0 | 85.7 | | | MMLU-Redux | 95.0 | 95.6 | 95.9 | 94.5 | 92.8 | | | C-Eval | 90.5 | 92.2 | 93.4 | ...