DeepSeek
Search documents
穿越周期的力量:2025中国企业家年度榜单
Sou Hu Cai Jing· 2026-01-26 15:59
责编 | 贾宁排版| 沐言 第 9411 篇深度好文:20094字 |25分钟阅读 商业人物 笔记君说: 岁末年初,《企业家》杂志再度联合权威专家学者与业内资深人士,从战略布局、技术创新、成长速度、社会影响、责任担当等维度,推选出3位"特别贡 献企业家"和20位"2025年度企业家"(以姓氏笔画为序)。他们不仅是商业浪潮的领航者,也是中国经济的参与者和见证者。 他们有人一辈子只做一件事,把一滴酒酿成一个时代的标志;有人一次次"砸掉自己",把一家工厂改造成全球管理范式;有人在最传统的行业里死磕品 质,也有人在最前沿的科技中重构系统。 在AI爆发、产业重构、经济换挡 的关键节点,这23位领航者横跨白酒、制造、能源、农业、互联网、AI、机器人、新消费等多个领域,几乎覆盖了中国 经济的主干版图。他们的共同点只有一个:不追风口,不走捷径,把长期主义落实到每一个产品、每一次决策中。 有人用六十年时间,把凭经验的手艺变成可量化的科学;有人在行业最内卷的时候选择减速,只为守住质量底线;有人拒绝参数竞赛,从系统层重新设计 智能的未来;也有人把情绪价值、审美力与商业结合,开辟出全新的消费赛道。 在他们身上,你几乎看不到投机与浮躁 ...
“DeepSeek-V3基于我们的架构打造”,欧版OpenAI CEO逆天发言被喷了
3 6 Ke· 2026-01-26 07:44
Core Viewpoint - The discussion centers around the competitive landscape in the AI field, particularly focusing on the contrasting approaches of Mistral and DeepSeek in developing sparse mixture of experts (MoE) models, with Mistral's CEO acknowledging China's strong position in AI and the significance of open-source models [1][4]. Group 1: Company Perspectives - Mistral's CEO, Arthur Mensch, claims that open-source models are a strategy for progress rather than competition, highlighting their early release of open-source models [1]. - The recent release of DeepSeek-V3 is built on Mistral's proposed architecture, indicating a collaborative yet competitive environment in AI development [1][4]. - There is skepticism among the audience regarding Mistral's claims, with some suggesting that Mistral's recent models may have borrowed heavily from DeepSeek's architecture [4][13]. Group 2: Technical Comparisons - Both DeepSeek and Mistral's Mixtral focus on sparse MoE systems, aiming to reduce computational costs while enhancing model capabilities, but they differ fundamentally in their approaches [9]. - Mixtral emphasizes engineering principles, showcasing the effectiveness of a robust base model combined with mature MoE technology, while DeepSeek focuses on algorithmic innovation to address issues in traditional MoE systems [9][12]. - DeepSeek introduces a fine-grained expert segmentation approach, allowing for more flexible combinations of experts, which contrasts with Mixtral's flat knowledge distribution among experts [11][12]. Group 3: Community Reactions - The community has reacted critically to Mistral's statements, with some users expressing disbelief and pointing out the similarities between Mistral's and DeepSeek's architectures [2][17]. - There is a sentiment that Mistral, once a pioneer in the open-source AI space, is now perceived as having lost its innovative edge, with DeepSeek gaining more influence in the sparse MoE and MLA technologies [14][17]. - The competitive race for foundational models is expected to continue, with DeepSeek reportedly targeting significant releases in the near future [19].
DeepSeek最新论文解读:mHC如何用更少的钱训练出更强的模型?——投资笔记第243期
3 6 Ke· 2026-01-26 07:38
Core Insights - DeepSeek has released a significant paper on Manifold-Constrained Hyper-Connections (mHC), focusing on the fundamental issue of how information flows stably through ultra-deep networks in large models, rather than on model parameters, data volume, or computational power [2] Group 1: Residual Connections and Their Limitations - The concept of residual connections, introduced by Kaiming He’s team in 2015, is a milestone in AI development, allowing deeper neural networks by addressing the vanishing gradient problem [3] - Prior to residual connections, neural networks were limited to depths of 20-30 layers due to the exponential decay of gradients, which hindered effective feature learning [3][4] - Residual connections introduced a "shortcut" for signal transmission, enabling the depth of trainable networks to increase from tens to hundreds or thousands of layers, forming the structural foundation of modern deep learning [4] Group 2: Introduction of Hyper-Connections - Hyper-Connections emerged as a solution to the limitations of residual connections, allowing multiple pathways for information transfer within a model, akin to a relay race with multiple runners [6][7] - This approach enables information to be distributed across multiple parallel channels, allowing for dynamic weight allocation during training, enhancing the model's ability to handle complex, multi-source information [6][7] Group 3: Challenges with Hyper-Connections - Hyper-Connections face a critical flaw: instability due to excessive freedom in information flow, which can lead to imbalances in the model's internal information flow [9] - The training process of models using Hyper-Connections can exhibit high volatility and loss divergence, indicating a lack of stability in information transmission [9] Group 4: The Solution - mHC - mHC, or Manifold-Constrained Hyper-Connections, introduces a crucial constraint to Hyper-Connections by employing a double stochastic matrix, ensuring that information is redistributed without amplification [11] - This constraint prevents both signal explosion and signal decay, maintaining a stable flow of information throughout the network [13] - The implementation of mHC enhances training stability and performance, with only a 6.7% increase in training time, which is negligible compared to the significant cost savings in computational resources and debugging time [13][14] Group 5: Implications for Future AI Development - mHC strikes a new balance between stability and efficiency, reducing computational costs by approximately 30% and shortening product iteration cycles [14] - It supports the development of larger models, addressing the stability bottleneck in scaling to models with hundreds of billions or trillions of parameters [16] - The framework of mHC demonstrates that "constrained freedom" is more valuable than "complete freedom," suggesting a shift in AI architecture design from experience-driven to theory-driven approaches [16]
2026了,大厂们还在用撒钱这招搞AI
Di Yi Cai Jing· 2026-01-26 05:28
几乎可以预判这场大战的结局:春节期间,各大撒钱的AI应用的下载量将迎来一条漂亮的、陡峭增长 的曲线,日活数据会创下新高。但随着时间过去,这些脉冲式的流量、这些为红包而来的用户又将迅 速退潮。 过去互联网"烧钱换用户"的逻辑,本质上是"花钱买时间",用资本购买"网络效应"和"习惯养成"的 快捷方式。为什么这套打法在AI赛道不完全奏效? 腾讯元宝豪掷10亿,百度紧随其后撒出5亿,熟悉的味道又回来了。这套战术的"剧本"几乎不变。 2015年微信支付凭借春晚"摇一摇"一役成名,被喻为"珍珠港偷袭",成功将数亿用户绑定至其生态 之下,完成对用户习惯的一次闪电式改造。如今,"弹药"依然是真金白银,但冲锋的目标,已从昔 日的支付入口、短视频流量,转向了人工智能。 "红包炮弹"当然有效,大厂"撒钱"的价值不能完全否定。尤其选在春节这个时间窗口,可以说是大 家唯一能通过"合家欢"场景,实现技术普惠与圈层穿透的时间节点,将AI应用塞进数亿人的手机 里,完成一场全民AI启蒙。成本看似高昂,却也可能最有效率。 更重要的是,在AI应用尚未出现"杀手级应用"的当下,谁都不敢掉队,通过红包维持存在感、卡位 春节流量池是巨头的本能反应。况且 ...
2026了,大厂们还在用撒钱这招搞AI
第一财经· 2026-01-26 05:24
2026.01. 26 本文字数:2393,阅读时长大约4分钟 作者 | 第一财经 刘佳 封图 | AI生成 都2026了,大厂们还在用"撒钱"这招搞AI。 大厂们不得不直面一个现实:在 AI 时代,技术壁垒的权重远高于资本壁垒,用户愿意为优质体验买 单,也会为单纯的红包停留,但可能不会停留太久。 几乎可以预判这场大战的结局:春节期间,各大撒钱的AI应用的下载量将迎来一条漂亮的、陡峭增 长的曲线,日活数据会创下新高。但随着时间过去,这些脉冲式的流量、这些为红包而来的用户又将 迅速退潮。 腾讯元宝豪掷10亿,百度紧随其后撒出5亿,熟悉的味道又回来了。这套战术的"剧本"几乎不变。 2015年微信支付凭借春晚"摇一摇"一役成名,被喻为"珍珠港偷袭",成功将数亿用户绑定至其生态 之下,完成对用户习惯的一次闪电式改造。如今,"弹药"依然是真金白银,但冲锋的目标,已从昔日 的支付入口、短视频流量,转向了人工智能。 "红包炮弹"当然有效,大厂"撒钱"的价值不能完全否定。尤其选在春节这个时间窗口,可以说是大家 唯一能通过"合家欢"场景,实现技术普惠与圈层穿透的时间节点,将AI应用塞进数亿人的手机里, 完成一场全民AI启蒙。成 ...
“DeepSeek-V3基于我们的架构打造”,欧版OpenAI CEO逆天发言被喷了
量子位· 2026-01-26 04:45
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI "DeepSeek-V3是在Mistral提出的架构上构建的。" 欧洲版OpenAI CEO此言一出,炸了锅了。 网友们的反应be like: 这还是温和派,还有更直接的吐槽:Mistral在胡说八道些什么…… 还没吃上瓜的家人们别着急,咱们从头捋一捋这事儿: 在最近一次访谈中,当被问到如何看待中国开源AI的强势发展时,Mistral联合创始人、CEO Arthur Mensch这样回应: 中国在AI领域实力强劲。我们是最早发布开源模型的公司之一,而他们发现这是一个很好的策略。 开源不是真正的竞争,大家在彼此的基础上不断进步。 比如我们在2024年初发布了首个稀疏混合专家模型(MoE),DeepSeek-V3以及之后的版本都是在此基础上构建的。它们采用的是相 同的架构,而我们把重建这种架构所需的一切都公开了。 Arthur Mensch很自信,但网友们听完表示:桥豆麻袋,这不对劲。 且不说DeepSeek MoE论文的发布时间和Arthur Mensch提到的Mixtral论文相差 仅3天 : △ 图源:@Sebastian Raschka 认真细扒起来, ...
大厂们还在用撒钱这招搞AI
Di Yi Cai Jing· 2026-01-26 04:01
都2026了,大厂们还在用"撒钱"这招搞AI。 腾讯元宝豪掷10亿,百度紧随其后撒出5亿,熟悉的味道又回来了。这套战术的"剧本"几乎不变。2015年微信支付凭借春晚"摇一摇"一役成名,被喻为"珍 珠港偷袭",成功将数亿用户绑定至其生态之下,完成对用户习惯的一次闪电式改造。如今,"弹药"依然是真金白银,但冲锋的目标,已从昔日的支付入 口、短视频流量,转向了人工智能。 红包只能买来暂时的热闹。 "红包炮弹"当然有效,大厂"撒钱"的价值不能完全否定。尤其选在春节这个时间窗口,可以说是大家唯一能通过"合家欢"场景,实现技术普惠与圈层穿透 的时间节点,将AI应用塞进数亿人的手机里,完成一场全民AI启蒙。成本看似高昂,却也可能最有效率。 大厂们不得不直面一个现实:在 AI 时代,技术壁垒的权重远高于资本壁垒,用户愿意为优质体验买单,也会为单纯的红包停留,但可能不会停留太久。 几乎可以预判这场大战的结局:春节期间,各大撒钱的AI应用的下载量将迎来一条漂亮的、陡峭增长的曲线,日活数据会创下新高。但随着时间过去, 这些脉冲式的流量、这些为红包而来的用户又将迅速退潮。 过去互联网"烧钱换用户"的逻辑,本质上是"花钱买时间",用资 ...
人工智能周报(26年第4周):MiniMax Agent 2.0正式发布,百度文心5.0上线-20260126
Guoxin Securities· 2026-01-26 03:18
证券研究报告 | 2026年01月25日 2026年01月26日 人工智能周报(26 年第 4 周) 优于大市 MiniMax Agent 2.0 正式发布,百度文心 5.0 上线 人工智能动态:1)公司动态:①字节扣子 2.0 发布;②安克与飞书联合 发布"AI 录音豆";③MiniMax Agent 2.0 正式推出;④美国 AI 创企 Humans&获 4.8 亿美元种子轮融资;⑤特斯拉人形机器人 Optimus 计划 于 2027 年公售;⑥谷歌 Gemini 上线免费 SAT 模拟考功能;⑦xAI Grok Imagine 推出 10 秒视频生成功能。 2)底层技术:①智谱发布并开源混合思考模型 GLM-4.7-Flash;② DeepSeek 新模型"MODEL1"曝光;③阿里通义千问开源 Qwen3-TTS 系列 语音生成模型;④百度推出文心 5.0;⑤谷歌 DeepMind 发布 D4RT 四维 视觉 AI 模型。 投资建议:伴随大模型在多模态、长文本、推理能力等方面的成熟,26 年有望迎来更多成熟 Agent 产品的涌现,推理侧需求的增加将带动上游 云计算厂商的收入持续增长。另一方面,国内互 ...
DeepSeek——少即是多
2026-01-26 02:49
January 23, 2026 07:57 AM GMT 科技脉动 | Asia Pacific DeepSeek——少即是多 DeepSeek 最新推出的Engram模块通过将存储与计算解耦,减 少对HBM的依赖并降低基础设施成本。这有望缓解中国在AI 计算方面的瓶颈,并表明下一阶段的AI竞争焦点可能不再是更 大的模型,而是更高效的混合式架构。 从稀缺的GPU资源中挖掘更高的效率。DeepSeek将"条件式记忆"从计算 (Engram)中解耦,将大语言模型的效率提ⶍ至一个全新的水平。Engram旨在缓 解 AI 基础设施中的存储瓶颈,通过高效"查找"关键信息,避免过度ⶭ用 HBM, 从而释放更大容量用于更复杂的推理任ⱷ。在现有 GPU 与系统存储架构下提ⶍ效 率也意味着未来可能⬵少昂贵的HBMⶍ级。对HBM获取受限的中国市场而言,这 项技术可缓解对昂贵存储硬件的ⷭⱱ。 影响。要在基础设施成本更低的情⬅下获得更强大的推理能ⱱ,就意味着最低需 要约200GB的系统DRAM,而 Vera Rubin系统中每颗CPU已配备1.5TB的DRAM,ⷊ 每个系统使用的通用DRAM将约提ⶍ 13%。DeepSeek 的结 ...
人工智能周报(26 年第4 周):MiniMax Agent 2.0 正式发布,百度文心 5.0 上线
Guoxin Securities· 2026-01-26 02:45
证券研究报告 | 2026年01月25日 2026年01月26日 人工智能周报(26 年第 4 周) 优于大市 MiniMax Agent 2.0 正式发布,百度文心 5.0 上线 人工智能动态:1)公司动态:①字节扣子 2.0 发布;②安克与飞书联合 发布"AI 录音豆";③MiniMax Agent 2.0 正式推出;④美国 AI 创企 Humans&获 4.8 亿美元种子轮融资;⑤特斯拉人形机器人 Optimus 计划 于 2027 年公售;⑥谷歌 Gemini 上线免费 SAT 模拟考功能;⑦xAI Grok Imagine 推出 10 秒视频生成功能。 2)底层技术:①智谱发布并开源混合思考模型 GLM-4.7-Flash;② DeepSeek 新模型"MODEL1"曝光;③阿里通义千问开源 Qwen3-TTS 系列 语音生成模型;④百度推出文心 5.0;⑤谷歌 DeepMind 发布 D4RT 四维 视觉 AI 模型。 投资建议:伴随大模型在多模态、长文本、推理能力等方面的成熟,26 年有望迎来更多成熟 Agent 产品的涌现,推理侧需求的增加将带动上游 云计算厂商的收入持续增长。另一方面,国内互 ...