DeepSeek

Search documents
deepseek技术解读(3)-MoE的演进之路
自动驾驶之心· 2025-07-06 08:44
作者 | 姜富春 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/18565423596 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 0. 引言 本篇讲讲deepseek在MoE(Mixture-of-Experts)上的演进过程。DeepSeek是MoE稀疏模型的忠实玩家。主版 本模型从DeepSeekMoE(V1) 到 DeepSeek V3,一直坚持走MoE的技术路线,并且持续做出一些创新。本 文参考paper并结合源码阅读,理解MoE的演进过程和具体实现。 1.简述MoE的发展历程 首先我们简单回顾下MoE的发展历史,早在1991年一篇名为《Adaptive Mixtures of Local Experts 》的工 作,最早提出了Mixture of Experts的原型框架,如图1,直至今日,MoE的框架依然保持这种形式。 MoE(Mixture of Experts)是一种网络层结构, 网络层主要包括三部 ...
DeepSeek又惹祸了?画面不敢想
Xin Lang Cai Jing· 2025-07-06 04:24
Core Viewpoint - The article discusses the increasing prevalence of misinformation generated by AI, highlighting the challenges posed by AI hallucinations and the ease of feeding false information into AI systems [3][10][21]. Group 1: AI Misinformation - AI hallucination issues lead to the generation of fabricated facts that cater to user preferences, which can be exploited to create bizarre rumors [3][10]. - Recent examples of widely circulated AI-generated rumors include absurd claims about officials and illegal activities, indicating a trend towards sensationalism over truth [5][6][7][8]. Group 2: Impact of Social Media - The combination of AI's inherent hallucination problems and the rapid dissemination of information through social media creates a concerning information environment [13][14]. - The article suggests that the current state of information is deteriorating, likening it to a "cesspool" [15]. Group 3: Recommendations for Improvement - AI companies need to enhance their technology to address hallucination issues, as some foreign models exhibit less severe problems [17]. - Regulatory bodies should improve their efforts to combat the spread of false information, although the balance between regulation and innovation remains delicate [18]. - Individuals are encouraged to be cautious with real-time information while relying on established knowledge sources [20].
AI周报|华为盘古团队否认开源模型抄袭;英伟达市值逼近4万亿美元
Di Yi Cai Jing· 2025-07-06 01:52
苹果或弃自研模型转投OpenAI和Anthropic;Meta成立超级智能实验室。 华为盘古团队否认开源模型抄袭 7月5日,华为诺亚方舟实验室发布声明称,盘古Pro MoE开源模型是基于昇腾硬件平台开发、训练的基 础大模型,并非基于其他厂商模型增量训练而来。对此,盘古团队在声明中称,盘古Pro MoE开源模型 部分基础组件的代码实现参考了业界开源实践,涉及其他开源大模型的部分开源代码。盘古团队严格遵 循开源许可证的要求,在开源代码文件中清晰标注开源代码的版权声明。 点评:华为此前6月30日宣布开源盘古7B稠密和72B混合专家模型,随后,一项发布于GitHub的研究引 发业界热议,该研究的作者认为,华为推出的盘古大模型与阿里巴巴发布的通义千问Qwen-2.5 14B模型 在参数结构上存在"惊人一致",两个模型在注意力参数分布上的平均相关性高达0.927,远超其他模型 对比的正常范围。 英伟达市值逼近4万亿美元 当地时间7月3日盘中,英伟达市值一度突破3.92万亿美元,短暂超过苹果在2024年年底时创下的3.915万 亿美元全球最高市值,并逼近4万亿美元。截至7月3日收盘,英伟达股价上涨1.33%,股价159.3 ...
罗马仕深夜正式发布停工停产通知,将停工6个月;《爱情公寓》女演员自曝被合伙人欺骗,加盟商每月都在赔钱;上海乐高乐园开园丨邦早报
创业邦· 2025-07-06 01:03
完整早报音频,请点击标题下方小耳机收听 【网传盘古抄袭千问?华为回应】 7 月 5 日消息,关于近期开源社区及网络平台关于盘古大模型开 源代码的讨论,盘古 Pro MoE 技术开发团队诺亚方舟实验室发布声明称,盘古 Pro MoE 开源模型 是基于昇腾硬件平台开发、训练的基础大模型,并非基于其他厂商模型增量训练而来。盘古 Pro MoE 开源模型部分基础组件的代码实现参考了业界开源实践,涉及其他开源大模型的部分开源代 码。声明称,严格遵循开源许可证的要求,在开源代码文件中清晰标注开源代码的版权声明。这不仅 是开源社区的通行做法,也符合业界倡导的开源协作精神。(科创板日报) 【 DeepSeek 给王一博道歉是假的】 近日,一则" DeepSeek 就 AI 模型违规关联向王一博道歉"的 消息在网络疯传,引发广泛关注。据称,这家人工智能公司因内容审核疏漏,将王一博与"李爱庆腐 败案"不当关联,损害了其名誉,并已作出正式道歉。然而, DeepSeek 官方从未发表过道歉声明, 相关信息中也没有任何一则明确指出 DeepSeek 的道歉渠道,部分媒体发的所谓的声明截图竟本身 就是 AI 生成的文字,还带有 AI 生 ...
近200亿融资、万亿市场,全球人形机器人市场格局剖析!
Robot猎场备忘录· 2025-07-05 15:09
温馨提示 : 点击下方图片,查看运营团队6月最新原创报告(共235页) 说明: 欢迎约稿、刊例合作、行业交流 , 行业交流记得先加入 "机器人头条"知识星球 ,后添加( 微信号:lietou100w )微 信; 若有侵权、改稿请联系编辑运营(微信:li_sir_2020); 正文: CES2025大会期间,人形机器人赛道 最强"卖铲人"[英伟达]和"引领者"[特斯拉],双方创始人 黄仁勋 和马斯克先 后宣布人形机器人时代即将到来,奠定2025年具身智能赛道主旋律。 2月份,顶级投行摩根士丹利、高盛集团接连发布2025年人形机器人最新研报,两者肯定人形机器人广大前景 (万亿赛道)同时,对目前核心技术壁垒、 商业化模式详细解读, 明确指出短时间难以真正批量化落地,并一 致认为上游核心供应链公司将在这波具身智能浪潮中率先获利。 两份报告翻译解读: 1、 人形机器人赛道融资仍旧火爆降温,资本渐向头部创企倾斜,呈现两级分化局面 深度解读「摩根士丹利」双研报:头部人形机器人、核心供应链公司梳理和投资分析(附报告) 深度解读「高盛」人形机器人双研报:主流人形机器人公司梳理和商业化瓶颈(附报告) 目前[智元机器人]、[宇树科 ...
9点1氪:DeepSeek给王一博道歉是假的;雷军回应纸巾盒定价169元;格力高管回应董明珠海归派言论
3 6 Ke· 2025-07-05 01:00
Group 1 - DeepSeek did not issue an apology to Wang Yibo regarding the AI model's inappropriate association with a corruption case, despite widespread rumors [1] - Lei Jun acknowledged that the price of the Xiaomi YU7 car-mounted tissue box is relatively high at 169 yuan, but emphasized the product's design considerations for extreme temperature conditions [1] - Gree Electric's market director clarified that the company values talent based on innovation and responsibility rather than educational background, countering previous statements by CEO Dong Mingzhu about not hiring overseas returnees [2] Group 2 - A Chinese model who was reported missing after being lured to Myanmar under the pretense of a modeling job has been rescued, highlighting the dangers of overseas job scams [2] - Taobao customer service reported that the seller Romashi is currently unable to process refunds due to insufficient account balance, following a recall of certain power bank models due to safety concerns [3][4] - The CEO of Yunhaiyao admitted legal responsibility for a food poisoning incident involving ByteDance employees in Singapore, where 60 employees fell ill after a company lunch [9] Group 3 - Nintendo's president defended the pricing of the Switch 2, which has increased by 100-200 USD compared to previous models, stating that the price reflects the gaming experience offered [8] - The Ministry of Industry and Information Technology in China announced a pilot program for number protection services, allowing users to choose whether to authorize their phone numbers for use on internet platforms [8] - Counterpoint Research reported that iPhone sales in China grew by 8% year-on-year in Q2, marking Apple's first sales increase in two years, with Huawei and Vivo leading the market [12]
时报观察丨政策红利收实效 创投市场添暖意
证券时报· 2025-07-05 00:02
随着上半年创投市场关键数据陆续发布,行业人士对市场回暖的认知已从主观感受转向客观数据 支撑。 执中最新报告显示,上半年机构LP(出资人)出资规模同比激增50%,投融资规模降幅显著收窄,IPO退 出项目数量增幅超20%。多项核心指标集体反弹,标志着创投市场走向复苏周期。 版权声明 证券时报各平台所有原创内容,未经书面授权,任何单位及个人不得转载。我社保留追 究相关 行 为主体 法律责任的权利。 政策"组合拳"持续发力成为市场修复的核心动能。从2024年新"国九条""创投十七条"到2025年初国办1号 文,再到5月七部门提出设立"国家创业投资引导基金",一系列政策"组合拳"直指畅通"募投管退"全链条, 强化创业投资对科技创新的支持作用,政策红利正逐步转化为市场实效。 市场多维度积极信号印证回暖趋势。 首先,投资端活跃度显著提升,以DeepSeek、宇树科技为代表的AI 与人形机器人企业崛起,催生硬科技投资新风口,部分优质项目竞争加剧,机构尽调频次明显增加,市场 信心修复态势明确。其次,资金端呈现"长钱入市"特征:国家大基金三期斥资近2000亿元设立三只股权基 金,银行AIC基金集中备案出资,保险与社保基金等长期资 ...
政策红利收实效 创投市场添暖意
Zheng Quan Shi Bao· 2025-07-04 17:13
诸多因素中,二级市场估值修复与退出预期改善是募资、投资回暖的核心逻辑。当前行业对多元化退出 机制的共识不断深化,创投机构普遍将提升DPI(已分配资本/实缴资本)作为核心目标,通过优化退出策 略为出资人创造回报,因此对项目的退出诉求尤为强烈。 不过,市场全面回暖仍需突破多重关卡,比如,市场化资金投资情绪有待进一步激活,长线资金入市规 模需持续扩大,IPO退出通道有待进一步畅通。唯有实现"募投管退"全链条良性循环,机构投资者才能 真正释放投资动能,加大对硬科技领域的布局力度。未来,随着政策红利持续释放叠加市场机制自我修 复,创投行业将向更具韧性、更富效率的发展新阶段迈进。 随着上半年创投市场关键数据陆续发布,行业人士对市场回暖的认知已从主观感受转向客观数据支撑。 执中最新报告显示,上半年机构LP(出资人)出资规模同比激增50%,投融资规模降幅显著收窄,IPO退 出项目数量增幅超20%。多项核心指标集体反弹,标志着创投市场走向复苏周期。 政策"组合拳"持续发力成为市场修复的核心动能。从2024年新"国九条""创投十七条"到2025年初国办1 号文,再到5月七部门提出设立"国家创业投资引导基金",一系列政策"组合拳" ...
DeepSeek与Anthropic的生存策略 | Jinqiu Select
锦秋集· 2025-07-04 15:35
在AI竞赛如火如荼的今天,真正制约各家公司发展的核心瓶颈究竟是什么? semianalysis写了一篇文章,通过深入分析DeepSeek和Anthropic两家公司的策略选择,揭示了一个行业共同面临的根本挑 战:计算资源的稀缺。 DeepSeek R1发布128天后的数据呈现出一个看似矛盾的现象:官方平台用户流失,但第三方托管的模型使用量却暴增20 倍。为什么用户会抛弃价格极低的官方服务,转而选择第三方平台? 本文通过Token经济学这一分析框架找到了答案。 文章指出,AI服务的定价本质上是三个性能指标的权衡游戏。 第一是延迟,即用户发送请求到收到第一个字符的等待时间; 第二是吞吐量,即模型每秒能生成多少个token,直接影响对话的流畅度; 第三是上下文窗口,决定了模型能"记住"多少对话历史,对于分析长文档或大型代码库至关重要。 关键洞察在于:通过调整这三个参数,服务商可以实现任何价格水平。 DeepSeek选择了极端配置——数秒的延迟、每秒仅25个token的输出速度、业界最小的64K上下文窗口,换取了极低的价 格和最大化的研发资源。 有趣的是,作为西方AI领军企业的Anthropic也面临着相似的困境。C ...
Deepseek爆火之后的现状如何?
傅里叶的猫· 2025-07-04 12:41
以下文章来源于More Than Semi ,作者猫叔 More Than Semi . More Than SEMI 半导体行业研究 SemiAnalysis又来分析Deepseek了,在年初Deepseek刚刚爆火的时候,SemiAnalysis就出了一篇分析, 那篇写的内容确实很不错。 根据 Reuters(2025-05-29)的报道,DeepSeek 的低成本和短开发时间震惊了全球市场,导致美国科技 股价值蒸发数十亿美元,投资者重新评估 AI 巨头的估值。 这份报告深入探讨了DeepSeek R1及其在人工智能领域的竞争和市场动态,内容涵盖发布影响、技术进 步、用户使用趋势、token经济学、硬件限制、竞争格局等。先把原文的内容大概总结一下。 SemiAnal ysis原文总结 1. DeepSeek R1 的发布与市场影响 DeepSeek R1 自 2025 年 1 月 20 日推出已超过 150 天,其性能被认为与 OpenAI 的推理模型相当,但其 定价策略极具颠覆性:输入/输出token价格仅为 10 美元。这一低价策略震撼了全球 AI 市场,引发了广 泛讨论。许多人担心 DeepSeek ...