Workflow
预训练
icon
Search documents
AI展望:NewScaling,NewParadigm,NewTAM
HTSC· 2025-06-10 01:43
证券研究报告 科技 AI 展望:New Scaling,New Paradigm,New TAM 华泰研究 2025 年 6 月 10 日│中国内地 中期策略 全球 AI 展望:New Scaling,New Paradigm,New TAM 展望全球 AI 发展趋势,1)模型端新架构正逐步探索,预训练 Scaling Law 有望呈现新起点;2)算力端训练与推理共同推动算力需求持续上行,有望 开启新 TAM,同时算力硬件设计进入新范式;3)应用端商业模式变革带来 新范式,Agent 在细分领域率先落地带来新 TAM。持续看好 AI 产业投资主 线,看好全球 AI 应用进入业绩收获期。 模型:预训练 Scaling Law 有望开启新起点 回顾近三个季度以来的大模型迭代情况,强化学习(RL)带来的后训练 test-time compute 依然是大模型的主流迭代方向。经典 transformer 架构下 模型参数规模或已达到了瓶颈,人类现有公开数据已接近被使用完。但值得 注意的是科技巨头在预训练阶段仍在继续尝试,以腾讯混元 Turbo S 与 Gemini Diffusion 为代表的大模型开始尝试在架构上进 ...
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
3 6 Ke· 2025-05-28 11:59
文|周鑫雨 编辑|苏建勋 预训练还是不是王道?如今AI行业,这是最大的"罗生门"事件。 2023年,模型预训练,还是第一性原理。然而,从OpenAI前首席科学家Ilya公开喊话"预训练已走到尽头",到聚焦强化学习的DeepSeek R1出圈,又昭示着 预训练风光不再。 从人人追捧,到口碑滑坡,预训练境遇的变化,是AI行业"共识"与"非共识"不断流动的一个缩影。 针对AI技术的共识与非共识,2025年5月27日的"技术开放日"上,蚂蚁集团攒了一个交流局。 圆桌对话的参与者,是当下最热的创业者、技术高管和学者: 曹越,视频模型公司Sand.AI创始人,前光年之外联创。2024年7月完成两轮融资后,公司估值已经超过1亿美元; 林俊旸,阿里通义千问(Qwen)技术负责人。从2021年发布的M6,到2025年的Qwen3,他都是名副其实的模型一把手; 孔令鹏,香港大学助理教授、NLP LAB联合主任。其牵头研发的扩散推理模型Dream 7B,成为了开源扩散语言模型的新SOTA。 △图源:作者拍摄 某种意义上,曹越和孔令鹏,都在探寻AI"非共识"的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流架构,分别应用到 ...
2025深蓝智库|银河通用:成为现实生产力
Bei Jing Shang Bao· 2025-05-25 07:59
成立于2023年5月的银河通用近日迎来了两周岁生日,这家年轻的企业于人形机器人赛道快速崛起。在3月底召开的2025中关村论坛年会上,银河通用具身大 模型机器人Galbot G1为观众取送了数千杯咖啡,任务成功率达到99.97%,成为名副其实的现实生产力。银河通用何以脱颖而出?创始人王鹤的学术背景常 被视作关键,除了企业家身份,他还是北京大学前沿计算研究中心助理教授及博士生导师、北大—银河通用具身智能联合实验室主任,以及北京智源人工智 能研究院具身智能研究中心主任。从一定程度上讲,创始团队扎实的学术经验让银河通用在技术路径选择上更加坚定。银河通用认为,不论人形机器人的存 量有没有达到自动驾驶领域百万级设备的规模," 仿真合成数据"的技术路线都是长期可行且具性价比优势的。在应用层面,银河通用走务实路线,目标是 推动具身智能机器人在多类场景中真正"动起来,干起来"。 以小补大 有关数据中,谷歌的一个项目常被拿来举例,16人的团队耗费约17个月,投入百万甚至千万美元,仅采集到23万条真实交互数据。而一旦机器人被迁移到新 的房间或场景,其模型并不工作,需要重新采集数据。在王鹤看来,这种"场景迁移即重建"的代价是难以接受 ...
三只羊旗下多家公司法定代表人变更;零一万物回应联合创始人谷雪梅离职|未来商业早参
Mei Ri Jing Ji Xin Wen· 2025-05-19 22:55
|2025年5月20日 星期二| 每经记者|赵雯琪 每经实习编辑|余婷婷 NO.1 零一万物回应联合创始人谷雪梅已离职 5月19日,有市场消息称,零一万物联合创始人谷雪梅在近期离职,正在筹备创业。在零一万物期间, 她主要负责模型预训练和C端产品。对此,零一万物向《每日经济新闻》记者确认,谷雪梅作为预训练 负责人已在数月前离职。据公开消息,谷雪梅是谷歌中国的第一位本土女工程师,主要关注大规模分布 式计算平台、搜索推荐及广告、知识图谱等方面的技术研发。 点评:当下直播行业竞争白热化,增长放缓进入存量博弈。头部MCN(多频道网络)纷纷收缩多元战 线、加大技术投入转型。此次三只羊旗下多家公司法定代表人变更,或为内部管理优化与战略调整之 举。新负责人可能带来新理念,更加聚焦核心业务,但也同样面临战略定力和战术上的挑战。 NO.3 宠物综合O2O服务平台宠贝贝旗下品牌获战略投资 5月19日,宠物综合O2O(线上到线下)服务平台宠贝贝宣布,旗下子品牌猫王谷天使轮获得天使投资 人成晓华的战略投资。猫王谷定位为爱宠全生命周期服务平台,已在佛山开设了一家线下门店,第二家 门店将于6月花落深圳南山区。猫王谷预计年内直营门店将超10 ...
AI也需要"记笔记":Karpathy从Claude 1.6万字提示词中看到的未来
歸藏的AI工具箱· 2025-05-12 08:28
LLM 的系统提示就是在对话一开始递给 AI 的"一页说明书",用来告诉它该扮演什么角色、遵守哪 些规则、用什么方式回答用户。 大概来看一下这么长的提示词里面主要都是一些什么内容: 而且整个提示词中充满了临时修改的的痕迹,这些修改往往没有使用 XML 或者 Markdown 格式的列表,就 是一段话,看起来像是针对一些热点事件或者问题修复打的补丁。 **Acknowledgments** I would like to thank my supervisor, for his kind of support. I would like to thank my supervisor, for his kind of support. 如果懒得看内容可以听一下,播客使用 listenhub 制作 前几天 Cluade 新的系统提示词泄露了,居然有 16,739 个单词,非常长。 相比之下,OpenAI 在 ChatGPT 中的 o4-mini 的系统提示有 2,218 个单词,只是 Claude 的 13%。 什么是系统提示词 Claude 整个系统提示词这么长维护和更新甚至版本控制应该都需要一个专门的流程,不然 ...
公元:DeepSeek只打开一扇门,大模型远没到终局 | 投资人说
红杉汇· 2025-05-11 05:09
DeepSeek如何改变中国AI投资?具身智能距离清晰商业化还要多久?这些热门话题吸引了众多资深投资人热烈 讨论。在 "第19届中国投资年会·年度峰会"上, 投中网主编曹玮钰 与 红杉中国合伙人公元 等嘉宾就当下AI与具 身智能等话题举行了一场别开生面的对谈。 公元从商业化的角度分析,今天的创业模式与互联网时代很大的不同在于,明确的商业化路线的重要性已经让 位于技术的颠覆创新。因为一个新模型能力的突破,用户可以瞬间转移。而现在具身领域很有可能处在AI赛道 2018年的阶段,市场还没有看到GPT时刻。但只要创业者和投资人相信AGI的未来,行业就一定能做出来。 以下为现场实录整理: AI还是在快速变化的时候,大家说AI一天,人间一年。现在很难预测未来会是哪几家在线上,后训练和预 训练像两只脚一样,可能是个需要双轮前进的事情,所有的公司都在这两条线上做努力,谁会先迈出下一 只脚,更进一步,是大厂,还是创业公司,我觉得大家都不知道,我们刚刚开始。 Q Q 大家好,这个环节叫 DeepChat ,我们主要想聊一下人工智能和具身的话题。我先来问一个问题,人工智能 和具身这两个赛道是不是足够大,或者说仍有非常大的非共识? ...
AI Agent:算力需求空间?
2025-05-06 02:28
• Agent 与 Chatbot 不同,Agent 任务复杂度高,交互量大,所需 TOKEN 量远高于 Chatbot,对存储和内存要求更高,影响因素包括任务复杂度、 多模态处理、用户量等。 • 优化模型访问和推理方法包括使用低精度计算、模型蒸馏,以及硬件优化 如 KV 缓存优化,Salesforce 等公司 Agent 产品通常采用百亿参数规模模 型。 展。 综上所述,AI Agent 对算力的需求不仅包括新应用开发,还包括大量老 业务改造,这部分需求容易被忽略但实际非常重要。 如何拆解训练与推理环节中的具体算力需求? AI Agent:算力需求空间?20250505 摘要 • AI 应用逐渐渗透,算力推理需求快速增长,大厂改造现有业务而非开发全 新 APP,导致被忽略的算力需求非常重要,微软、谷歌等公司推理需求占 比可能达 60%-70%。 • 训练环节市场预期悲观,但实际情况可能更好,预训练边际效应减缓,后 训练增速不明显,细分领域仍有增长潜力,需关注 AI Agent 等潜在领域 价值。 • 算力产业链边际走弱,英伟达股价未创新高,市场对整体算力需求预期悲 观,但 AI 应用领域表现强劲,如 Pal ...
深度|清华姚班学霸、OpenAI姚顺雨:AI下半场从“算法竞赛”转向“效用定义”,重构评估框架,将技术能力转化为真实世界价值
Z Potentials· 2025-04-25 03:05
图片来源:姚顺雨 个人博客 Z Highlights 姚顺 雨 是斯坦福大学自然语言处理研究员, OpenAI 员工 ,专注于强化学习与语言模型融合研究。本文译自姚顺 雨 于 2025 年 4 月 10 日发布的英文博客 《 The Second Half 》,内容整合了他在斯坦福课程 CS224N 及哥伦比亚大学前沿论坛的核心演讲观点。 我们正处于AI的中场阶段。几十年来,AI的核心一直是开发新的训练方法和模型。这条路奏效了:从在国际象棋和围棋上击败世界冠军,到在SAT和律师 资格考试中超越大多数人类,甚至赢得IMO和IOI金牌。 这些载入史册的里程碑——DeepBlue、AlphaGo、GPT-4,以及o系列模型——背后是AI方法的根 本性创新:搜索、深度强化学习、模型规模化,以及推理。 一切都在不断变得更好。 那现在究竟发生了什么变化?用三个词概括:强化学习终于奏效了。更准确地说:强化学习终于具备了泛化能力。经历了多次重大的绕行与一系列里程碑 之后,我们终于找到了一个通用的有效配方,能够利用语言和推理解决各种各样的强化学习任务。哪怕是在一年前,如果你告诉大多数AI研究人员,一个 统一的方法可以同时解决软 ...
智谱想给DeepSeek来一场偷袭
Hu Xiu· 2025-03-31 12:39
出品|虎嗅科技组 作者|宋思杭 编辑|苗正卿 头图|智谱Openday现场 那个在一个月内斩获三轮国资的"国家队"智谱,终于开启与DeepSeek正面交锋。 但也并非所有大模型厂商都在摒弃预训练、拥抱DeepSeek。对此,智谱创始人兼CEO张鹏告诉虎 嗅,"我们仍然会坚持预训练,但更深一层的问题是,目前关于预训练有很多没有被关注到的点,比如 预训练的架构、数据使用效率等等。" 实际上,自2025开年以来,DeepSeek对所有基座模型形成的降维打击,正在持续给整个行业带来余 震。"DeepSeek做得那么好,为什么还要投你?"类似这样的灵魂拷问,却从未在过去两年从投资人的口 中传出。相反,"大模型六小虎"曾是他们摘不到的星星。 而从整个第一季度来看,资本正逐渐对大模型初创公司失去耐心。可以说,除了智谱连续拿到地方产投 融资,目前并无市场化资本进入到其余大模型企业当中。 与此同时,这种降维打击所暴露出的另一面是,即使是用百亿元砸出来的预训练,也没能让基座模型厂 商形成护城河。 商业化难题,是大模型企业这三年来都没能绕过去的槛。继拿到多笔国资后,智谱也即将开启新旅程。 在今日的发布会现场,CEO张鹏首次正面回应 ...