规模定律

Search documents
AI下半场,大模型要少说话,多做事
Hu Xiu· 2025-07-01 01:33
本文来自微信公众号:中国企业家杂志 (ID:iceo-com-cn),作者:闫俊文,原文标题:《对话中国 信通院魏凯:AI下半场,大模型要少说话,多做事》,头图来自:AI生成 今年2月DeepSeek爆火,震惊国内外。实际上,在此之前,中国信息通信研究院(下称:中国信通院) 的大模型评测团队就观察到国内模型性能迅速提升的势头,他们当中就包括中国信通院人工智能研究所 所长魏凯。 魏凯说:"2024年一年,国内包括DeepSeek在内的多个大模型团队,一直从多角度努力,不断提升模型 性能,基本上每个月都能看到新的进展。在我们的测试中,DeepSeek在2024年4月的模型性能排名还比 较靠后,8月的版本已经是TOP10里的玩家了,到了10月的版本已经是前几名了,12月发布的DeepSeek- V3成为当时基础能力第一名的模型,而且是开源的,非常了不起。" 2024年底,工业和信息化部成立人工智能标准化技术委员会,魏凯任秘书长,主持日常工作。 6月底,《中国企业家》专访了魏凯,作为资深专家,他对大模型以及当前最火的Agent有独特的看法, 以下是访谈的内容详情(有删减): 一、DeepSeek一直在优化 《中国企业 ...
模型训练最重要的依然是 Scaling —— 对话阿里通义千问 Qwen 多语言负责人杨宝嵩 | Open AGI Forum
AI科技大本营· 2025-06-25 06:49
Core Viewpoint - The article discusses the rapid rise of large model technology globally, emphasizing Alibaba's Tongyi Qwen model's international success and its strategic focus on multilingual capabilities to cater to a global audience [2][3]. Group 1: Multilingual Strategy - Tongyi Qwen supports 119 languages, with a core strategy prioritizing multilingual data optimization from the outset to ensure equitable access to AI technology for global users [2][3]. - The team has developed a complex cultural annotation system to address the challenges of multilingual safety and cultural alignment, covering thousands of detailed categories to ensure compliance and effectiveness across different regions [3][12]. - The current industry faces a "multilingual reasoning challenge," where models often mix languages during processing, leading to inconsistencies. The team has adopted a compromise strategy to use native languages for strong languages and English for low-resource languages to maintain output stability [3][16]. Group 2: Scaling Law and Knowledge Density - The article highlights the importance of scaling model size and data volume while also focusing on increasing "knowledge density," which refers to the concentration of useful knowledge within the training data [19][20]. - Recent trends show that smaller models with higher knowledge density can outperform larger models, indicating a shift in focus from merely increasing data volume to refining data quality [20][21]. - The team is exploring data synthesis methods to enhance training data quality, which includes generating new knowledge and filtering redundant data to improve knowledge density [22][23]. Group 3: AI Integration and Future Prospects - The integration of AI models into various devices, such as smart glasses and earphones, is a growing trend, with the company planning to release smaller model versions optimized for these applications [28][30]. - The article discusses the potential for AI to enhance user experiences in everyday tasks, such as real-time translation and contextual assistance, although challenges remain in achieving seamless integration [30][32]. - The company acknowledges the importance of balancing the use of synthetic data with human-generated content to maintain diversity and avoid narrowing the model's knowledge base [25][26].
研报金选丨别急着找下一个宁德时代,跟着这些“卖水人”能吃肉
第一财经· 2025-06-20 02:38
研报金选 618超级回归福利:年单8折起,直降700元! 还送第一财经智享会员季卡权益。 年内最大优惠来袭,后无来者! 仅本月有效!仅年单有效!错过这次再等一年! 注:年单一人限购一单,同一手机号无法叠加。 研报观点: ①规模定律由参数、算力扩展至并行流,互联带宽亦将受推动...... ②集群低功耗、高速率的需求下,更高的集成度或为更优解...... ③行业头部通信设备厂已有成熟方案,CPO 交换机产业化或在即...... 点此解锁研报全文及推荐详情 第一财经智享会员季卡权益请扫码联系小助手领取 金选导读 1、为什么算力板块这个品种最疯狂?英伟达已降耗70%,分析师惊呼:乐观预计80%渗透+400 亿美元规模+终局结构; 2、未来5年出货CAGR高达123%?2500亿风口倒计时!别急着找下一个宁德时代,跟着这 些"卖水人"能吃肉! 1、为什么算力板块这个品种最疯狂?英伟达已降耗70%,分析师惊呼:乐观预计80%渗透+400 亿美元规模+终局结构; 点此解锁重点公司盈利预测图示 2、未来5年出货CAGR高达123%?2500亿风口倒计时!别急着找下一个宁德时代,跟着这 些"卖水人"能吃肉! 近期,****突破 ...
GPU集群怎么连?谈谈热门的超节点
半导体行业观察· 2025-05-19 01:27
以下文章来源于魔形智能 Magik Compute ,作者K君 魔形智能 Magik Compute . 为全球客户提供AGI Infra与AIaaS产品和服务 如果您希望可以时常见面,欢迎标星收藏哦~ 人工智能(AI)的浪潮正以前所未有的速度重塑各行各业,其背后离不开海量算力的支撑。当AI模型参数从 亿级跃升至万亿级,传统服务器已难以满足日益增长的算力需求与效率要求。为了打破这个瓶颈,一个全新的 概念应运而生——超节点 (Super Node)。 不止于"大":什么是超节点服务器? 简单来说, 超节点服务器就是大量高速计算芯片的高效统一结构 ,面对AI算力大潮的最优解。它并非计算硬 件的简单堆砌,而是将海量的计算单元(CPU/GPU/TPU等)以前所未有的密度和效率整合在一起,专门为应 对人工智能任务带来的庞大算力需求而生。 传统AI服务器虽然也集成了CPU、GPU等部件,但当AI模型参数动辄千亿、训练数据浩如烟海时,单个GPU 的显存和算力就如同杯水车薪。模型并行(将一个大模型拆分给多个GPU协同处理)成为必然选择。但问题来 了:参与模型并行的服务器之间需要进行海量、高速的数据交换,服务器间的以太网/ I ...
美股跌出了经济衰退的味道,华尔街投行建议增持中国股票
互联网金融· 2025-03-11 09:52
当地时间2025年3月10日,美国纽约,纳斯达克市场中心外的电视屏幕上播放着股市信息。图源:CFP "我要建设一个强大的国家,不能只关注股市。"特朗普说。在上周的国会讲话中,特朗普就给市 场打了"预防针",称为了中长期的结构性转型,可以忍受出现短期的经济不适。 上周五,财政部长斯科特·贝森特也释放出类似论调,他在接受美国消费者新闻与商业频道 (CNBC)采访时表示,随着新政府削减开支,美国经济可能经历一段"排毒期"。 实际上,美股的这波调整始于2月20日, 截至3月10日收盘,标普500指数相较于2月中旬的高点已 下跌8.7%,纳斯达克指数跌近13%。分行业看,美股可选消费、通讯服务、信息技术行业领跌。 "纳指近四周跌超12%,跌出了经济衰退的味道。"民生证券分析师陶川在研报中表示,美股下跌 的核心原因是衰退预期下的流动性紧缩恐慌:一方面,特朗普的"衰退"引导正好碰上了经济数据 的走弱;另一方面,流动性担忧背后,既有美联储缩表末期的不适,更有来自中国和欧洲的"分 流",以及日本央行进一步紧缩的"阴影"。 陶川表示,"预期引导"堪比特朗普的一场"经济豪赌"。特朗普的政策风格是"说得比做得狠",尤 其是今年2月以 ...
DeepSeek开源引领AI普惠化浪潮
Wind万得· 2025-03-02 22:40
以下文章来源于RimeData 来觅数据 ,作者来觅研究院 RimeData 来觅数据 . 全面的一级市场数据平台 导读: 2025年2月24日起,DeepSeek开始为期5天的代码开源周,开源了FlashMLA、DeepEP、DeepGEMM等代码库。2月28日,OpenAI发布其最 新一代基础模型GPT-4.5(非推理模型),号称是迄今为止数据规模最大、知识最为丰富的聊天模型。可见,AI正以惊人的速度在发展。DeepSeek 的开源策略对行业带来哪些影响?全球AI大模型的进展如何?GPT-4.5模型有何特点?行业投融资情况如何?本文尝试分析和探讨。 01 DeepSeek开源策略影响 DeepSeek,全称为杭州深度求索人工智能基础技术研究有限公司,成立于2023年,是一家由知名私募巨头幻方量化孕育而生的创新型科技公司,专 注于开发先进的大语言模型(LLM)及相关技术。自成立以来,DeepSeek已相继发布了多款产品,包括DeepSeek Coder、DeepSeek LLM、 DeepSeek V2、DeepSeek V3、DeepSeek R1等。 2024年12月26日,DeepSeek正式上线De ...
中金:从规模经济看DeepSeek对创新发展的启示
中金点睛· 2025-02-27 01:46
中金研究 DeepSeek的出现有几个没想到,不是大型科技企业和科研院所而是初创企业,不是实体科技公司而是一家金融领域的企业,不是来自处于领先地位的 美国而是在大模型领域相对落后的中国。这一切纯属偶然吗?只有大机构才能研发AI大模型的背后是所谓的规模定律,即要素(数据、算力)投入的 边际产出下降,模型性能提升需要不断增加要素投入,带来规模的门槛要求。DeepSeek的破解在于以算法优化(技术进步)提升算力(要素)的边际 产出,一定程度上替代了算力投入。技术进步从个体来讲似乎有偶然因素,但从宏观来讲是规模经济效应的力量,尤其是外部规模经济,即上下游协 同、共享基础设施和人才池的创新生态,中国在数字基础设施和人才规模优势方面尤其突出。规模经济效应意味着大模型未来的发展或仍将由大国主 导。就中美之间的互动而言,规模定律隐含后发者有优势,所以美国通过限制算力出口减缓中国的追赶。这是因为落后者要素投入的边际产出高于领 先者,市场机制激励要素投入从领先者流向落后者,有利于两者差距的缩小,这有点类似经济学新古典增长模型的逻辑,即规模报酬递减带来发展中 国家和发达国家之间的差距收敛。但这加剧了双方各自的比较优势,美国偏重利用 ...
对话香港大学马毅:“如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”
晚点LatePost· 2024-06-04 10:05
文丨程曼祺 编辑丨宋玮 黄俊杰 当大部分人都相信一件事或趋势时,不同意的人可以选择沉默,也可以大声说出来。前者是少数派中的多数派,后者少数派中的少数派。 马毅就是一个少数派中的少数派。 自 2000 年从伯克利大学博士毕业以来,马毅先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研院、上海科技大学、伯克利大学和香港大 学,现担任香港大学计算机系主任和数据科学研究院院长。 他最早将 "压缩感知" 技术应用于计算机视觉领域,在人脸识别、物体分类等任务上产生了巨大影响。 知名 AI 学者李飞飞是马毅在 UIUC 时参与招聘的第一个华人助理教授,ResNet 一作何恺明是马毅在微软亚研院负责视觉组时招的第一个新员 工。 少数派中的少数派。 马毅公开表达时直言不讳。AI 业界惊叹于 GPT 等大模型的威力,担心 AI 可能毁灭人类,如图灵奖得主杰弗里·辛顿(Geoffrey Hinton) 和 OpenAI 发起者之一伊隆·马斯克(Elon Musk)就多次将 AI 类比为原子弹,呼吁监管。 "说现在的 AI 危险的人,要么是无知,要么是别有目的。" 马毅在 twitter 上回应 AI 威胁论。 强烈的观点来自他对 ...