Workflow
大语言模型
icon
Search documents
DeepSeek团队梁文锋论文登上《自然》封面
人民财讯9月19日电,近日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型 研究论文,登上了国际权威期刊《自然(Nature)》第645期的封面。论文研究表明,大语言模型(LLM)的 推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。并提出,大语言模型 (LLMs)不必依赖人工示例或复杂指令,也能通过试错式强化学习,自主学会生成推理过程。且AI还会 自发进行"自省",被认为是人工智能(AI)探索人类之外思维路径的重要迹象。 ...
中国服务业企业500强发布,华为公布AI芯片发展路线 | 财经日日评
吴晓波频道· 2025-09-19 00:30
商务合作▲点击图片 美联储如期降息25个基点 |点评| 我国免签政策不断优化,效果立竿见影,直接体现为入境外国人数的快速增长。在当前内需仍待提振的经济环境下,大量国际游客涌 入,带动航空、住宿、餐饮等服务业产业发展,对刺激消费、激发市场活力有着重要作用。不过,短期内国际游客激增,也给城市管理与服务 能力带来挑战。国内各地可以抓住这一契机,补齐短板,促进整个服务产业链的提升。 免签政策优化,同样降低了国际商务往来的门槛,为我国吸引外资、留住人才打开了窗口,境外投资者、技术人才与国内企业合作将更加便 捷。逆全球化思潮下,我国主动推进免签"扩容",也是向世界传递高水平开放的积极信号。 2025中国服务业企业500强发布 美东时间9月17日周三,美联储在货币政策委员会FOMC会后宣布,联邦基金利率的目标区间从4.25%至4.5%降至4.00%至4.25%,降幅25个基 点。这是美联储今年开年以来九个月内首次决定降息。联储自去年9月到12月连续三次会议降息,本周再度行动后,本轮宽松周期的合计降息降 幅达125个基点。 本次降息决议只有一名FOMC投票委员——特朗普"钦点"的理事米兰反对(主张降息50基点),至少目前看来 ...
远程银行的“跨越山海”与咫尺服务
Zheng Quan Ri Bao· 2025-09-18 16:22
"我们观察到多家银行的AI业务已从'试试看'转为'必须做',其整体战略布局已被重构。远程银行不仅是 银行数字化转型成果的集中展现,更是其关键输出端口。它不再是成本中心,而是新的服务核心、营销 中心和价值创造中心。"蚂蚁数科副总裁余滨在接受《证券日报》记者采访时分享了他的见解。 从业者的直观感受,正是当前银行业数字化转型深入推进的真实写照。在数智驱动下,金融服务提质升 级,有力推动了银行跑出金融为民的"加速度"。作为数字化转型的"桥头堡",远程银行由信用卡中心、 电话银行中心、网络银行部等传统部门整合而成,形成独立的"远程银行部"或"线上客户经营中心",并 提升至与线下网点同等重要的战略层级,成为银行全面数字化转型的重要支点。 随着"数字中国"建设及做好"数字金融"大文章的深入推进,以创新为核心的新质生产力正迅速崛起,成 为推动金融高质量发展的核心动力。在新形势下,银行与用户的关系正在重塑,服务渠道与工具也在不 断更新迭代,一幅"新金融"的蓝图正徐徐展开。 从功能叠加 走向业务重构 余滨长期深耕在业务一线,致力于服务机构的远程银行建设。他向记者讲述:"如今,我们为银行提供 的AI应用已从最初的智能客服、知识问答 ...
当前的自动驾驶VLA,还有很多模块需要优化...
自动驾驶之心· 2025-09-18 11:00
点击咨询匹配大牛导师 1. 传统模块化架构的时代: 早期的自动驾驶系统(L2-L4级)普遍采用模块化设计。每个模块(如 物体检测、轨迹预测、路径规划)被独立开发和优化。 优势: 逻辑清晰,各模块可独立调试和 验证,具有较好的可解释性。 瓶颈: 错误累积效应: 上游模块的微小误差会逐级传递并放大, 影响最终决策。 信息损失: 在模块间传递的结构化数据(如3D框、轨迹点)会损失原始传感器 信息中的丰富细节。 规则的局限性: 依赖大量人工设计的规则和参数,难以应对复杂、长尾的 交通场景(Corner Cases)。 2. 纯视觉端到端(模仿学习)的兴起: 以NVIDIA的DAVE-2、Wayve等为代表,研究者们尝试使用 深度神经网络,通过模仿学习(Imitation Learning)的方式,直接从人类驾驶员的驾驶视频和操 作数据中学习"像素到行为"的映射。 优势: 简化了系统架构,能从数据中自动学习复杂的驾驶 策略,无需繁琐的规则设计。 瓶颈: "黑箱"问题与可解释性差: 模型决策过程不透明,难以理 解其做出特定行为的原因,这对于安全至关重要的自动驾驶是致命缺陷。 因果混淆(Causal VLA绝对是今年自动驾 ...
DeepSeek 首登《自然》封面:中国大模型创造新历史,做了 OpenAI 不敢做的事
3 6 Ke· 2025-09-18 09:56
就在今天,DeepSeek 的大型语言模型 DeepSeek-R1 的研究成果,作为封面文章登上了国际顶尖科学期刊《Nature》。 和 OpenAI 那些动辄上千万美元, 这个只花了 30 万美元训练出来的国产 AI 模型 ,曾经不仅一度引发美股震荡,现在还登上了 Nature 的最新封面。 图片链接:https://www.nature.com/nature/volumes/645/issues/8081 Nature 封面评语 此次登上 Nature 封面的文章,是 DeepSeek 年初在 arXiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,即 R1 的技术论文。 虽然大体上和年初那篇类似,但是补充了相当多细节。 论文作者名单,梁文锋是通讯作者 正文只有双栏 11 页,补充材料却来到了 83 页;而同行评审,就是审稿人与 DeepSeek 团队就论文某些问题进行讨论的记录(一般叫 rebuttal,反驳),也有 64 页之多。 这些新公开的资料,让我们看到了 De ...
DeepSeek,严正声明!
Zhong Guo Ji Jin Bao· 2025-09-18 08:37
(原标题:DeepSeek,严正声明!) 中国基金报记者 晨曦 DeepSeek,被"碰瓷"! 9月17日晚间,深度求索(DeepSeek)发布声明称,近期有不法分子冒充"深度求索"公司或在职员工, 伪造工牌、营业执照等材料,在多个平台以"算力租赁""股权融资"等名义向用户收取费用实施诈骗。该 行为严重侵害用户权益,并损害公司声誉。 对此,深度求索严正声明: 1.深度求索从未要求用户向个人账户或非官方账户付款,任何要求私下转账的行为均属诈骗; 2.任何冒用公司名义开展"算力租赁""融资"等行为均属违法,将依法追究其法律责任。 同时,深度求索提醒称,用户应通过公司官网(deepseek.com)及官方认证账号获取官方信息及最新动 态;官方网页、App产品目前均为免费,如需API调用服务,请前往官网开放平台进行充值。如遇可疑 情况,请通过官方邮箱联系核实,或向公安机关举报。 今年2月,深度求索曾发布"关于DeepSeek官方信息发布及服务渠道的说明",其中提到,部分与 DeepSeek有关的仿冒账号和不实信息对公众造成了误导和困扰。 深度求索强调,与DeepSeek有关的一切信息以官方账号发布为准,任何非官方账号 ...
从 ChatGPT 到 Marble,李飞飞押注的下一个爆发点是 3D 世界生成?
锦秋集· 2025-09-18 07:33
最近,李飞飞创立的 World Labs 推出了最新空间智能模型 Marble 的限量 Beta 测试版,主打"可从一张图片或一段文本提示,生成持久存在且可自由导航的 3D 世 界"。 相比以往同类产品,Marble 在几何一致性、风格多样性、世界规模以及跨设备支持(包括 web、移动端、VR 头显)上都有明显提升。 它宣称,不仅让"3D 世界"不再只是静态画面,也不再被时限所约束,更让用户有可能真正"走入"人工智能所构建的空间世界;对比Google 的 Genie 3 相比,Marble 的"世界永久存在""可自由漫游""无视图变形"的体验成为核心卖点。 锦秋基金认为,Marble 并不是一款孤立的产品,而是李飞飞过去一年不断提出的 " 世界模型—空间智能—三维表征" 思路的集中落地。 过去的诸多场合,她反复提及:大语言模型的边界非常清晰,真正的通用智能必须回到三维世界的对齐。背后,她在描绘一条清晰的路线图:从语言理解 → 世界 理解 → 空间智能 → AGI。 因此,锦秋基金决定去系统梳理过去一段时间李飞飞所有访谈。单看 Marble,看到的是新闻;把所有访谈串联起来,更有可能看到李飞飞所代表的 新叙事、 ...
DeepSeek打破历史!中国AI的“Nature时刻”
Zheng Quan Shi Bao· 2025-09-18 07:29
据了解,DeepSeek本次在Nature上发表的论文较今年年初的初版论文有较大的改动,全文64页,不仅首 次披露了R1的训练成本,而且透露了更多模型训练的技术细节,包括对发布初期外界有关"蒸馏"方法 的质疑作出了正面回应,提供了训练过程中减轻数据污染的详细流程,并对R1的安全性进行了全面评 估。 其中,在训练成本方面,R1-Zero和R1都使用了512张H800GPU,分别训练了198个小时和80个小时,以 H800每GPU小时2美元的租赁价格换算,R1的总训练成本为29.4万美元(约合人民币209万元)。不到 30万美元的训练成本,与其他推理模型动辄上千万美元的花费相比,可谓实现了极大的降本。 关于R1发布最初时所受到的"蒸馏"质疑,DeepSeek介绍,其使用的数据全部来自互联网,虽然可能包 含GPT-4生成的结果,但并非有意而为之,更没有专门的蒸馏环节。所谓"蒸馏",简单理解就是用预先 训练好的复杂模型输出的结果,作为监督信号再去训练另外一个模型。R1发布时,OpenAI称它发现 DeepSeek使用了OpenAI专有模型来训练自己的开源模型的证据,但拒绝进一步透露其证据的细节。 中国大模型,首登Na ...
DeepSeek首次回应“蒸馏OpenAI”质疑
第一财经· 2025-09-18 05:34
2025.09. 18 本文字数:2259,阅读时长大约4分钟 作者 | 第一财经 刘晓洁 郑栩彤 9月18日,DeepSeek再次引发轰动。由DeepSeek团队共同完成、梁文锋担任通讯作者的 DeepSeek-R1研究论文,登上了国际权威期刊《Nature》的封面。 今年1月,DeepSeek曾在arxiv公布了初版预印本论文,相较而言,此次发布在《Nature》的版本 补充了更多模型细节,减少了描述中的拟人化说明。在补充材料中,DeepSeek提到了R1模型的训 练成本仅29.4万美元,以及回应了模型发布之初关于蒸馏OpenAI的质疑。 今年1月,有报道提到,OpenAI研究人员认为,DeepSeek可能使用了OpenAI模型的输出来训练 R1,这种方法可以在使用较少资源的情况下加速模型能力提升。 在论文的补充资料部分,DeepSeek回应了关于DeepSeek-V3-Base训练数据来源的问 题。"DeepSeek-V3-Base的训练数据仅来自普通网页和电子书,不包含任何合成数据。在预训练 冷却阶段,我们没有故意加入OpenAI生成的合成数据,此阶段使用的所有数据都是通过网页抓取 的。"DeepSe ...
DeepSeek,打破历史!中国AI的“Nature时刻”
证券时报· 2025-09-18 04:51
9月17日,在最新一期的国际权威期刊Nature(自然)中,DeepSeek-R1推理模型研究论文登上了封面。该论文 由DeepSeek团队共同完成,梁文锋担任通讯作者,首次公开了仅靠强化学习就能激发大模型推理能力的重要 研究成果。这是中国大模型研究首次登上Nature封面,也是全球首个经过完整同行评审并发表于权威期刊的主 流大语言模型研究,标志着中国AI技术在国际科学界获得最高认可。 中国大模型,首登Nature封面。 Nature在其社论中评价道:"几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打 破。" 中国AI大模型的"Nature时刻" 自大模型浪潮席卷全球以来,技术发布、性能榜单层出不穷,但始终缺乏一个权威的"科学认证"机制。 OpenAI、谷歌等巨头虽屡有突破,但其核心技术多以技术报告形式发布,未经独立同行评审。 DeepSeek以其公开性和透明性打破了这一局面。DeepSeek-R1模型的研究论文最早于今年年初发布在预印本平 台arXiv上。自今年2月14日向Nature投递论文至今,历经半年,8位外部专家参与了同行评审,DeepSeek-R1推 理模型研究论文终 ...