Workflow
Seek .(SKLTY)
icon
Search documents
毫无征兆,DeepSeek R1爆更86页论文,这才是真正的Open
3 6 Ke· 2026-01-09 03:12
R1论文暴涨至86页!DeepSeek向世界证明:开源不仅能追平闭源,还能教闭源做事! 全网震撼! 两天前,DeepSeek悄无声息地把R1的论文更新了,从原来22页「膨胀」到86页。 全新的论文证明,只需要强化学习就能提升AI推理能力! DeepSeek似乎在憋大招,甚至有网友推测纯强化学习方法,或许出现在R2中。 这一次的更新,直接将原始论文升级为:一份开源社区完全可复现的技术报告。 论文地址:https://arxiv.org/abs/2501.12948 论文中,DeepSeek-R1新增内容干货满满,信息含量爆炸—— | Benchmark (Metric) | | | | Claude-3.5- GPT-40 DeepSeek OpenAI OpenAI DeepSeek | | | | | --- | --- | --- | --- | --- | --- | --- | --- | | | | Sonnet-1022 | 0513 | V3 | o1-mini o1-1217 | | R1 | | Architecture | | - | - | MoE | - | - | MoE | | # ...
清库存,DeepSeek突然补全R1技术报告,训练路径首次详细公开
3 6 Ke· 2026-01-09 03:12
Core Insights - DeepSeek has released an updated version of its research paper on the R1 model, adding 64 pages of technical details, significantly enhancing the original content [4][25] - The new version emphasizes the implementation details of the R1 model, showcasing a systematic approach to its training process [4][6] Summary by Sections Paper Update - The updated paper has expanded from 22 pages to 86 pages, providing a comprehensive view of the R1 model's training and operational details [4][25] - The new version includes a detailed breakdown of the training process, which is divided into four main steps: cold start, inference-oriented reinforcement learning (RL), rejection sampling and fine-tuning, and alignment-oriented RL [6][9] Training Process - The cold start phase utilizes thousands of CoT (Chain of Thought) data to perform supervised fine-tuning (SFT) [6] - The inference-oriented RL phase enhances model capabilities while introducing language consistency rewards to address mixed-language issues [6] - The rejection sampling and fine-tuning phase incorporates both reasoning and general data to improve the model's writing and reasoning abilities [6] - The alignment-oriented RL phase focuses on refining the model's usefulness and safety to align more closely with human preferences [6] Safety Measures - DeepSeek has implemented a risk control system to enhance the safety of the R1 model, which includes a dataset of 106,000 prompts to evaluate model responses based on predefined safety criteria [9][10] - The safety reward model employs a point-wise training method to distinguish between safe and unsafe responses, with training hyperparameters aligned with the usefulness reward model [9] - The risk control system operates through two main processes: potential risk dialogue filtering and model-based risk review [9][10] Performance Metrics - The introduction of the risk control system has led to a significant improvement in the model's safety performance, with R1 achieving benchmark scores comparable to leading models [14] - DeepSeek has developed an internal safety evaluation dataset categorized into four main categories and 28 subcategories, totaling 1,120 questions [19] Team Stability - The core contributors to the DeepSeek team have largely remained intact, with only five out of over 100 authors having left, indicating strong team retention in a competitive AI industry [21][24] - Notably, a previously departed author has returned to the team, highlighting a positive team dynamic compared to other companies in the sector [24]
DeepSeek与意大利谈妥了,但...
Guan Cha Zhe Wang· 2026-01-08 06:57
DeepSeek此前因AI"幻觉"风险披露问题遭意大利监管机构调查。去年6月,AGCM启动调查,指控其未 就聊天机器人输出错误或误导性信息的风险,向意大利用户作出充分警示。 这并非意大利首次对科技企业出手,近几个月来,该国监管机构已针对反竞争行为和数据隐私违规问 题,对Meta、谷歌等美国科技巨头开出罚单。 【文/观察者网 张菁娟】中国AI初创企业深度求索(DeepSeek)与意大利反垄断机构(意大利竞争与市 场管理局,AGCM)之间长达数月的磋商落下帷幕。 据香港英文媒体《南华早报》1月8日报道,双方已达成共识,DeepSeek同意为意大利用户推出首个国 家专属版本聊天机器人,同时着手解决其AI模型存在的"幻觉"问题。不过,DeepSeek还需在规定时间内 提交"整改"进度报告,逾期未达标将面临高额罚款。 经过多轮磋商,DeepSeek先后于去年9月15日、9月22日及11月21日提交了整改方案,逐步满足监管要 求,最终推动AGCM终止调查。 AGCM周一(5日)发布公告称,鉴于企业承诺"以更透明、易懂且直观的方式披露幻觉风险",决定正 式结束调查,同时特别肯定DeepSeek计划通过技术修复降低幻觉率的举 ...
光模块CPO龙头反弹,创业板人工智能再创新高!DeepSeek旗舰系统R2春节问世,AI应用大年启动?
Xin Lang Cai Jing· 2026-01-07 11:42
周三(1月7日),创业板人工智能指数再创新高,算力硬件、AI应用双双活跃。其中,致尚科技领涨 超7%,长芯博创、润泽科技涨超5%,蓝色光标、光环新网、光库科技、协创数据等多股涨超3%。光模 块CPO龙头迎来反弹行情,中际旭创涨超2%,新易盛、天孚通信均收涨! 热门ETF方面,流动性突出的创业板人工智能ETF(159363)全天活跃,场内价格收涨0.79%再创上市 新高,单日成交额超6亿元,资金近两日累计加仓1.7亿元。 AI应用再迎新催化。据智通财经1月7日报道,消息面上,DeepSeek下一代旗舰系统R2预计将在2月份春 节前后问世。此前,Meta斥资数十亿收购Manus也对AI应用板块形成有效提振。 银河证券表示,本次Meta对于Manus的收购是其进一步强化AI能力,加速将AI技术整合至消费级与企业 级产品矩阵的重要一环,通过将Manus整合至Meta的产品中,可以直接实现销售商业化,为Meta提供了 一个高利润率的软件层。本次收购将推动AI应用商业化落地提速,2026年将成为AI应用大年,建议持 续关注AI应用投资机会。* 算力方面,东吴证券表示,展望2026年,海外算力链将保持景气度向上,光互联核心 ...
新年首炸!DeepSeek提出mHC架构破解大模型训练难题
Sou Hu Cai Jing· 2026-01-07 09:13
新年第一天,DeepSeek悄悄发布了一篇论文。 这篇论文没办发布会,也没搞宣传,却在AI技术圈引发了不小的讨论。 论文提出了一种叫mHC的新架构,核心目标是解决大规模模型训练里的稳定性问题,同时还能保住性 能提升的优势。 圈外人可能听不懂这些术语,但只要搞明白大模型训练的核心痛点,就能理解这篇论文的价值。 大模型就像个复杂的信息处理工厂,残差连接就是工厂里的传送带。 文 |无言 早期的传送带是单通道的,靠着"恒等映射"的设计,能保证信息完整传递,训练起来也稳定。 可随着模型规模越来越大,单通道传送带就不够用了,信息拥堵得厉害。 大模型训练的两难困境 为了解决这个问题,字节跳动的团队之前提出了超连接方案。 这个方案相当于把单通道传送带改成了多通道,信息传输效率确实提高了,性能也跟着提升。 但新的问题很快出现了。 多通道没有统一的调度规则,信息在传输中会出现放大或压制的情况,就像失控的跷跷板。 这种情况直接导致训练过程中梯度爆炸,模型训练到一半就崩溃了。 本来想简单说下这个问题的严重性,但后来发现不举个例子不行。 有头部AI企业试过用类似超连接的方案训练千亿级模型,结果训练进行到一万多步时就频繁中断,损 失值突 ...
老黄开年演讲「含华量」爆表,直接拿DeepSeek、Kimi验货下一代芯片
3 6 Ke· 2026-01-07 01:35
CES巨幕上,老黄的PPT已成中国AI的「封神榜」。DeepSeek与Kimi位列C位之时,算力新时代已至。 万众瞩目的2026 CES科技盛宴上,一张PPT瞬间燃爆AI圈。 老黄主旨演讲上,中国大模型Kimi K2、DeepSeek V3.2,以及Qwen赫然上屏,位列全球开源大模型前列,性能正在逼近闭源模型。 这一刻,是属于中国AI的高光时刻。 另外,OpenAI的GPT-OSS和老黄自家的Nemotron,也做了标注。 而且,DeepSeek-R1、Qwen3 和 Kimi K2 代表着MoE路线下顶级规模的尝试,仅需激活少量参数,大幅减少计算量和HBM显存带宽的压力。 在下一代Rubin架构亮相的核心环节上,老黄还选用了DeepSeek和Kimi K2 Thinking来秀性能。 在Rubin暴力加成下,Kimi K2 Thinking推理吞吐量直接飙了10倍。更夸张的是,token成本暴降到原来的1/10。 这种「指数级」的降本增效,等于宣告了:AI推理即将进入真正的「平价时代」。 另外,在计算需求暴涨这页PPT上,480B的Qwen3和1TB的Kimi K2成为代表性模型,验证了参数规模每年以十倍 ...
雷军回应小字营销:行业陋习,但我们改/DeepSeek开年「王炸」,梁文锋署名论文发布/马斯克立新年Flag:大规模量产脑机接口
Sou Hu Cai Jing· 2026-01-06 13:46
雷军回应小字营销:是陋习,以后用大字 ✒️ OpenAI 神秘 AI 硬件新爆料:或不止一款 多家车企公布 2025 年销量情况 马斯克:2026 年大规模量产脑机接口 宝马中国回应最高降价 30 万元 消息称苹果 A20 成本比 A19 贵 80% 梁文锋参与,DeepSeek 发布新论文 索尼 2026 新品线曝光:包含 FX3 II 黄仁勋对谈联想董事长,将联合发布「革命性服务器」 微软 CEO:2026 年是 AI 关键年 ⌚️ Pebble 发布 Round 2 圆形智能手表 元旦你出去玩了吗?假期首日跨区域人员流动破 2 亿人次 《疯狂动物城 2》获元旦票房冠军 雷军回应小字营销:是陋习,以后用大字 昨晚,小米创始人雷军进行 2026 年首场直播,邀请工程师现场拆解小米 YU7,同时还在直播中回应了部分网络热门话题。 针对此前较为热门的「小字营销」争议,雷军回应表示,小字做标注/标释确实是行业常见惯例,更多的考虑是为了法律合规。其强调,这也是行业的陋 习,需要立刻改。 其也承认,为了符合广告法,确实当中有一部分是忽略了大家的感受,看上去有点像故意吹牛也是事实。 雷军还提出,此前小米 17 Pro ...
意大利结束对DeepSeek调查,涉及幻觉风险信息披露
持有和运营DeepSeek的两家公司——杭州深度求索人工智能基础技术研究有限公司、北京深度求索人工智能基础技术研究有限公司——做出 的承诺包含一系列改进关于幻觉风险信息披露的措施。 "幻觉"情况是指AI模型根据用户给定的输入,生成包含不准确、误导性或捏造信息的输出。 意大利在DeepSeek承诺就人工智能"幻觉"风险向用户发出警告后,结束了对其调查。 当地时间1月5日,意大利反垄断机构AGCM发布每周例行公报,表示已结束针对DeepSeek的调查,并同意以具有约束力的承诺作为结案条 件。2025年6月,AGCM因DeepSeek涉嫌未警告用户其可能会产生虚假讯息,而启动了该项调查。 21世纪经济报道记者陈归辞 AGCM在公告中称,DeepSeek做出的承诺,使有关幻觉风险的信息披露更容易、透明、易懂和及时。 自2025年年初面世以来,DeepSeek凭借其模型能力、极高的性价比和开源策略,迅速在全球范围内爆火。据Quest Mobile数据,2025年第三季 度,DeepSeek中国月活为1.45亿,位列国内AI应用第二。据OpenRouter与a16z联合发布的《人工智能发展现状:基于OpenRouter平 ...
黄仁勋又夸了DeepSeek,新一代“算力巨兽”正在量产,性能暴增5倍!
Feng Huang Wang· 2026-01-06 02:19
北京时间1月6日早五点,英伟达CEO黄仁勋在CES 2026开幕前的 keynote 演讲中,用90分钟为全球科技产业描绘了一幅激进且完整的未来图景。 在这场信息密度极高的演讲中,他不仅宣告人工智能的发展重心正从纯粹的"数字智能"迈向与物理世界交互的"物理AI"新纪元,更以一系列开源重器—— 从世界模型Cosmos、自动驾驶系统AlphaMio到新一代AI芯片架构Vera Rubin——展示了英伟达作为全栈巨头的野心:即为这个新时代构建从底层芯片、基 础设施到顶层模型与应用的全部基石。 当AI时代的算力需求正无限放大,英伟达仍在通过对计算平台的极限升级,试图吃下这个庞大的数字世界算力基座。 摘要: "Rubin 的到来恰逢其时,因为训练和推理的 AI 计算需求正在激增。" DeepSeek带来的启示,开源是创新主引擎 演讲伊始,黄仁勋便以历史性的视角定调感慨:"每隔10到15年,计算行业就会发生一次平台迁移。"他强调,当前我们正同时经历两大迁移:一是应用转 向以AI为核心构建;二是整个软件开发和运行范式被重塑——从"编程"转向"训练",从CPU转向GPU,从执行预编译代码转向实时生成内容。 "这意味着过去十年 ...
黄仁勋新年第一场演讲,提了DeepSeek
Di Yi Cai Jing· 2026-01-05 23:45
(本文来自第一财经) 当地时间1月5日,在拉斯维加斯的英伟达发布会上,身穿皮衣的英伟达CEO黄仁勋总结了AI行业去年 的进展,称开源模型的崛起成为全球创新的催化剂,其中Deepseek R1的出现意外推动了整个行业的变 革。目前全球涌现出多个开源模型,他们的性能越来越逼近领先的前沿大模型。他身后图片中展示了多 个开源模型,包括三家中国开源模型,分别是Kimi K2、Qwen、DeepseekV3.2。(第一财经记者刘佳) (本文来自第一财经) 责任编辑:凌辰 责任编辑:凌辰 当地时间1月5日,在拉斯维加斯的英伟达发布会上,身穿皮衣的英伟达CEO黄仁勋总结了AI行业去年 的进展,称开源模型的崛起成为全球创新的催化剂,其中Deepseek R1的出现意外推动了整个行业的变 革。目前全球涌现出多个开源模型,他们的性能越来越逼近领先的前沿大模型。他身后图片中展示了多 个开源模型,包括三家中国开源模型,分别是Kimi K2、Qwen、DeepseekV3.2。(第一财经记者刘佳) ...