Workflow
Seek .(SKLTY)
icon
Search documents
外媒关注中国发布“全球首款AI手机”:会是第二个“DeepSeek时刻”吗?
Huan Qiu Shi Bao· 2025-12-07 22:51
该产品在市场上引起热烈反响。据报道,这款原型机在中国一经发布便迅速售罄。虽然厂商并未透露总 销量,但其转售价格已在市场飙升约43%。美国科技媒体Wccftech报道称,该产品让人联想到2025年初 DeepSeek引发的轰动,当时全球集体震惊于中国以极低的计算成本提供的顶级推理模型,如今中国科 技公司再次推出全球首款真正具备智能代理功能的AI手机。 《印度快报》报道称,目前全球尚没有其他手机能够达到豆包手机如此高的自主性,虽然商业化进程还 有待观察,但是已清晰地展示了智能手机未来将如何改变我们的生活。同时,这款手机的问世也表明, 首款真正意义上的智能体手机或许并非来自硅谷,而是来自中国融合人工智能和移动技术的生态系统。 尽管这款产品目前只是豆包方面发布的"技术预览版",不过,将语言大模型植入到操作系统层面,也引 发业界关于数据授权、隐私、系统安全等问题的激烈争议。中关村信息消费联盟理事长项立刚告诉《环 球时报》记者,"将大模型与操作系统进行深入融合确实存在很大的争议,其商业推广也阻力重重。但 是如果要让AI Agent更加强大,必须深入到手机硬件和操作系统的底层,才能充分释放AI的能力。"项 立刚认为,"这肯 ...
开源和闭源模型的差距在拉大:这是DeepSeek论文揭示的残酷真相
3 6 Ke· 2025-12-06 00:03
12月2日,DeepSeek 发布了 V3.2 技术报告。在这篇论文里,他们做了一件罕见的事:明确指出开源大模型 与闭源模型的性能差距不是在缩小,而是在扩大。 这是基于大量实测数据的冷静判断。 差距正在拉大,这是事实 2024年,当 DeepSeek、Qwen、GLM 等开源模型接连发布时,社区充满乐观情绪。"8个月时间差"的说法 广为流传,许多人相信开源正在追上闭源。但进入2025年,情况发生了变化。 DeepSeek 在论文引言部分直言不讳地写道:"过去几个月出现了明显的分化。虽然开源社区持续进步,但 闭源专有模型的性能提升速度显著更快。结果是,两者的差距非但没有缩小,反而在扩大,闭源系统在复 杂任务上展现出越来越强的优势。" 更明显的差距体现在 HLE(Human Last Exam,极难的文本推理测试)中。DeepSeek V3.2 的得分是 25.1, GPT-5 是 26.3,而 Gemini 3.0 Pro 高达 37.7——这个差距已经不是"接近"能形容的了。 值得注意的是,DeepSeek V3.2 已经是目前最强的开源模型,在大部分开源模型的对比中都处于领先位 置。但即便如此,它与顶级闭源 ...
DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了
3 6 Ke· 2025-12-04 10:38
DeepSeek 一发布模型,总会引起业内的高度关注与广泛讨论,但也不可避免的暴露出一些小 Bug。 比如老外用英文询问,它却在思考过程中切回「神秘的东方文字」。当然,DeepSeek 模型对汉字「情有独钟」的情况早已出现,「极」字 Bug 就是典型 例子。 而这一次,随着新模型 DeepSeek-V3.2 的发布,大家又发现了 DeepSeek 需要优化的地方:其长思考版本(Speciale)暴露出一些 Token 使用效率不佳的问 题。 根据多位研究者反馈,DeepSeek-V3.2 Speciale 在处理复杂任务时出现明显的 Token 消耗异常。具体表现为: 在相同任务上,Gemini 只消耗 2 万 Token,DeepSeek-V3.2 Speciale 却用了 7.7 万,也就是说,它需要 3 倍以上的 Token 才能输出类似质量的结果。 另外,Speciale 版本出现输出内容又长又啰嗦的问题,但最终仍然错的情况,这并不是新问题,而是 GRPO 算法本身的固有缺陷。 实际上,DeepSeek-V3.2 在 Token 消耗方面的异常表现,已经被不少用户与研究者观察到。有社区网友指出,Spe ...
谷歌掀“美国版DeepSeek冲击”,投资人拆解算力赛道前景|华尔街观察
Di Yi Cai Jing Zi Xun· 2025-12-04 10:09
由于担心谷歌在人工智能(AI)领域取得进展,近期AI头号"卖铲人"英伟达的市值蒸发超千亿美元。 本周,摩根士丹利发布的最新报告预测,到2027年、2028年,谷歌的自有AI专用芯片TPU(张量处理单 元)产量将分别达到约500万片和700万片,较此前预测的300万片和320万片显著上调,这可能为谷歌带 来约130亿美元营收增量及0.40美元的每股收益(EPS)提升。 更早前,谷歌发布了最新的大型语言模型Gemini3,该模型完全由谷歌的TPU训练,而非OpenAI所使用 的英伟达GPU,TPU在训练成本和效率上更占优势。资本市场的兴奋情绪显而易见——谷歌母公司 Alphabet股价冲破320美元,年初至今的涨幅接近70%,市值逼近4万亿美元,市盈率(PE)从年内的14 倍翻倍,逼近28倍。 投资人将其称为"美国版DeepSeek冲击",究竟这一冲击将在未来如何影响AI投资格局?第一财经记者采 访了凯思博投资管理公司(Keywise)创始人、首席投资官郑方。在他看来,谷歌是最接近AGI(通用 人工智能)的企业。就硬件来看,TPU作为专用计算(ASIC),在特定推理场景有优势,但无法取代 GPU的通用计算地位。如 ...
DeepSeek-V3.2被找出bug了:疯狂消耗token,答案还可能出错,研究人员:GRPO老问题没解决
3 6 Ke· 2025-12-04 02:21
DeepSeek-V3.2很强很火爆,但随着讨论的深入,还是有bug被发现了。 并且是个老问题:浪费token。 图源:x@Hangslin 不少网友都提到,DeepSeek-V3.2的长思考增强版Speciale,确确实实以开源之姿又给闭源TOP们上了压力,但问题也很明显: 在面对复杂任务时,消耗的token数偏多,甚至可能会出现"又长又错"的答案。 比如,同样解决一个问题,Gemini只用了2万个token,而Speciale需要花费7.7万个。 这是怎么一回事? 没有被纠正的"长度偏见" 有研究者指出,这其实是自DeepSeek-R1-Zero以来,DeepSeek系列模型一直存在的一个"bug"。 $$\tau_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\rm old}(o_{i,t}|q,o_{i,<t})}\tag{6}$$ 简单来说,问题出在了GRPO算法上。 来自Sea AI Lab和新加坡国立大学等研究机构的学者认为,GRPO存在两个"隐藏偏见"。 长度偏见:错误答案越长,惩罚反而会越轻 GRPO计算奖励时,会把"答 ...
AI三国杀:OpenAI狂卷,DeepSeek封神,却被Mistral偷了家?
3 6 Ke· 2025-12-03 11:55
就在昨天,「欧洲版DeepSeek」一口气公布了两件事: 一个MoE大模型:Mistral Large 3 一套小模型:Ministral 3(14B/8B/3B) 全部开源、全部多模态、全部能落地。 Mistral Large 3 这次Mistral推出的Mistral Large 3,规格上看几乎是「开源界的准天花板」: 41B active / 675B total的MoE架构、原生图像理解、256k context、多语言能力在非英中语种上强得离谱,LMArena排名直接杀到开源模型第6。 Mistral Large 3的ELO得分在开源大模型中稳居第一梯队,和Kimi K2打成平手,仅落后DeepSeek v3.2一小截 它的底模表现也不弱,在多个基础任务上与DeepSeek、Kimi这种体量更大的模型正面交手。 Mistral Large 3(Base)在MMLU、GPOA、SimpleQA、AMC、LiveCodeBench等多项基础任务上与DeepSeek 37B、Kimi K2 127B保持同一水平,属于开源 系的第一梯队底模 再看预训练能力,它和Qwen、Gemma的底模在核心评测上也是正 ...
朱啸虎:DeepSeek对人类历史的改变被低估了 |未竟之约
Xin Lang Cai Jing· 2025-12-03 10:40
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目 的,并不意味着赞同其观点或证实其描述。 责任编辑:梁斌 SF055 由新浪财经 、微博着力打造,微博财经 × 语言即世界工作室联合出品的泛财经人文对话栏目《未竟之 约》首期深度访谈即将上线。主持人张小珺对话金沙江创投主管合伙人朱啸虎,直面AI浪潮下的激流 与暗礁。 朱啸虎:DeepSeek对人类历史的改变被低估了。 由新浪财经 、微博着力打造,微博财经 × 语言即世界工作室联合出品的泛财经人文对话栏目《未竟之 约》首期深度访谈即将上线。主持人张小珺对话金沙江创投主管合伙人朱啸虎,直面AI浪潮下的激流 与暗礁。 朱啸虎:DeepSeek对人类历史的改变被低估了。 新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目 的,并不意味着赞同其观点或证实其描述。 责任编辑:梁斌 SF055 ...
老外傻眼,明用英文提问,DeepSeek依然坚持中文思考
3 6 Ke· 2025-12-03 09:14
就在前天,DeepSeek 一口气上新了两个新模型,DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。 这两大版本在推理能力上有了显著的提升,DeepSeek-V3.2 版本能和 GPT-5 硬碰硬,而 Speciale 结合长思考和定理证明能力,表现媲美 Gemini-3.0-Pro。 有读者评论说:「这个模型不应该叫 V3.2,应该叫 V4。」 海外研究者也迫不及待的用上了 DeepSeek 的新版本,在感慨 DeepSeek 推理速度显著提升之余,却又碰上了他们难以理解的事情: 哪怕在用英文询问 DeepSeek 的时候,它在思考过程中还是会切回「神秘的东方文字」。 这就把海外友人整蒙了:明明没有用中文提问,为什么模型还是会使用中文思考,难道用中文推理更好更快? 评论区有两种不同的观点,但大部分评论都认为:「汉字的信息密度更高」。 来自亚马逊的研究者也这么认为: 这个结论很符合我们日常的认知,表达相同的文本含义,中文所需的字符量是明显更少的。如果大模型理解与语义压缩相关的话,那么中文相比于广泛使 用的英文在压缩方面更有效率。或许这也是「中文更省 token」说法的来源。 具有 ...
DeepSeek V3.2正式版发布:官方称推理比肩GPT-5
Feng Huang Wang· 2025-12-03 09:04
12月1日,深度求索(DeepSeek)正式发布新一代开源大模型DeepSeek-V3.2及其长思考增强版DeepSeek-V3.2-Speciale。官方网页端、App及API已同步更新 至V3.2版本。 根据官方数据,在公开的推理基准测试中,DeepSeek-V3.2的推理能力达到GPT-5水平,与Gemini-3.0-Pro接近,同时输出长度较Kimi-K2-Thinking显著缩短, 以降低计算开销。V3.2-Speciale版本融合了DeepSeek-Math-V2的定理证明能力,在IMO、CMO、ICPC及IOI等多项国际竞赛中取得金牌成绩,其中ICPC成绩 达到人类选手第二名水平。 新版本首次实现了思考模式与工具调用的融合,支持在思考过程中调用外部工具。通过大规模Agent训练数据合成方法,模型在1800多个环境和超过8.5万条 复杂指令上进行了强化学习训练,提升了泛化能力。官方称其在智能体评测中达到当前开源模型最高水平,进一步缩小了与闭源模型的差距。 此前的实验版本DeepSeek-V3.2-Exp于两个月前发布,经用户反馈测试,其采用的DSA稀疏注意力机制在各项场景中未出现显著性能下降。Sp ...
聊DeepSeek、聊AI硬件、聊竞争对手,OpenAI首席研究官专访信息密度有点大
3 6 Ke· 2025-12-03 07:46
OpenAI首席研究官马克·陈(Mark Chen)近日接受资深科技记者Ashlee Vance专访,描绘了这家全球领 先AI实验室的最新战略图景。 在当前AI竞争白热化、技术迭代加速的关键节点,Mark Chen不仅回应了外界对公司技术方向和人才流 失的担忧,更明确了OpenAI追求AGI的独特哲学和短期路线图。 扎克伯格"送汤"挖人,顶尖AI专家却依然选择留下 他强调,OpenAI与许多实验室的关键区别在于,始终将探索性研究置于首位。"我们不做跟随性研究, 不单纯追逐基准测试分数,"他指出。OpenAI将大量计算资源投入探索"下一个范式",这部分投入甚至 经常超过最终模型训练本身的消耗。 在管理过程中,最具挑战性的部分往往是拒绝。但马克·陈认为,优秀的领导力体现在能够清晰地 说"不"并解释原因。"我们必须不断强调:这些是当前的优先事项,这些是我们期望看到的成果类 型。"他解释道。 公司允许次要项目的存在,但它们必须被明确界定为从属地位。这种透明且坚定的原则,被马克·陈视 为保持研究组织高效运作的关键。通过这套严格的评估与资源分配机制,OpenAI力求将其宝贵的算力 集中于探索技术前沿的"范式突破",而非进 ...