强化学习
Search documents
Deepseek背景综述及在金融领域应用场景初探
China Post Securities· 2025-02-26 11:07
Quantitative Models and Construction Methods Model Name: DeepSeek-R1 - **Model Construction Idea**: The DeepSeek-R1 model leverages a mixture of experts (MoE) architecture and dynamic routing technology to reduce inference costs while maintaining high performance[16] - **Model Construction Process**: - **Mixture of Experts (MoE)**: Integrates multiple "expert" models to enhance overall model performance. A gating network determines which expert(s) should handle specific inputs[27] - **Group Relative Policy Optimization (GRPO)**: Eliminates the need for a separate critic model in reinforcement learning, reducing training costs by using group scores to estimate the baseline[31] - **Self-evolution Process**: The model improves its reasoning capabilities through reinforcement learning, exhibiting complex behaviors like reflection and exploration of alternative approaches[39][41] - **Cold Start**: Introduces high-quality long CoT data to stabilize the model during the initial training phase[42] - **Model Evaluation**: The model demonstrates significant cost efficiency and high performance, making it a groundbreaking development in AI applications[16][43] Model Name: DeepSeek-V2 - **Model Construction Idea**: The DeepSeek-V2 model is a powerful MoE language model designed with innovative architectures like Multi-head Latent Attention (MLA)[23] - **Model Construction Process**: - **Multi-head Latent Attention (MLA)**: Improves performance over traditional Multi-head Attention (MHA) by reducing KV cache, enhancing inference efficiency[25] - **Mixture of Experts (MoE)**: Similar to DeepSeek-R1, it uses a gating network to activate specific experts based on input, optimizing resource usage and performance[27] - **Model Evaluation**: The model shows advantages in performance, training cost, and inference efficiency, making it a strong, economical, and efficient language model[23][27] Model Name: DeepSeek-V3 - **Model Construction Idea**: The DeepSeek-V3 model aims to enhance open-source model performance and push towards general artificial intelligence[33] - **Model Construction Process**: - **Multi-Token Prediction (MTP)**: Enhances model performance by predicting multiple future tokens at each position, increasing training signal density[34] - **FP8 Mixed Precision Training**: Improves computational efficiency and reduces memory usage while maintaining model accuracy by using lower precision data types[36] - **Model Evaluation**: The model effectively balances computational efficiency and performance, making it suitable for large-scale model training[33][36] Model Backtesting Results - **DeepSeek-R1**: Demonstrates significant cost efficiency, achieving performance comparable to ChatGPT-01 with much lower training costs[43] - **DeepSeek-V2**: Shows superior performance and efficiency in training and inference compared to traditional models[23][27] - **DeepSeek-V3**: Achieves high computational efficiency and maintains model accuracy, making it effective for large-scale training[33][36] Quantitative Factors and Construction Methods Factor Name: Scaling Laws - **Factor Construction Idea**: Describes the predictable relationship between model performance and the scale of model parameters, training data, and computational resources[21] - **Factor Construction Process**: - **Scaling Laws**: As model parameters, training data, and computational resources increase, model performance improves in a predictable manner[21] - **Data Quality**: High-quality data shifts the optimal allocation strategy towards model expansion[22] - **Factor Evaluation**: Provides a strong guideline for resource planning and model performance optimization[21][22] Factor Backtesting Results - **Scaling Laws**: Demonstrates a predictable improvement in model performance with increased resources, validating the factor's effectiveness in guiding model development[21][22]
晚点播客丨硅谷怎么看 DeepSeek?与 FusionFund 张璐聊开源、Agent 和除了 AI
晚点LatePost· 2025-02-13 13:01
技术的力量,开源的力量,初创生态的力量。 整理丨刘倩 ▲扫描上图中的二维码,可收听播客。《晚点聊 LateTalk》#100 期节目。欢迎在小宇宙、喜马拉雅、苹果 Podcast 等渠道关注、收听我们。 《晚点聊 LateTalk》是《晚点 LatePost》推出的播客节目。"最一手的商业、科技访谈,最真实的从业者思考。" 2025 年 1 月,农历春节也没有让模型竞赛丝毫减速。DeepSeek 发布开源推理模型 R1,以相对低的成本,在一些 Benchmark 上比 肩,甚至超越了 o1 的表现,在全球掀起了广泛讨论。 这期节目,我们邀请了 2015 年,在硅谷创立了 Fusion Fund 的投资人张璐,来和我们一起聊一聊,当前美国科技圈和硅谷语境中, 对 DeepSeek 等模型的讨论。 我们也延展聊了 DeepSeek-R1 和 o1 等推理模型打开的 Agent(智能体)应用空间;以及在美国的科技投资视野中,除了 AI,大家还 在关注什么。 Fusion Fund 曾投资 Grubmarket、Al 会议公司 Otter.ai 还有 Al 与医疗结合的公司 Subtle Medical 等。在 Al ...
AI 月报:10 亿美元训练不出 GPT-5;低成本中国开源大模型走红;AI 幻觉不全是坏处
晚点LatePost· 2025-01-07 14:59
2024 年 12 月的全球 AI 大事记。 文丨贺乾明 编辑丨程曼祺 2024 年 12 月的 AI 月报,你会看到: OpenAI、Google 发布新模型,中国的 DeepSeek 也抢到了风头 GPT-5 训练遇阻的更多细节 强化学习的重要性持续提升 至少有三个团队推出了世界模型 Google 霸占大模型竞技场前三 中国公司在开源社区存在感大涨 博通帮大公司自研 AI 芯片,市值破万亿美元 OpenAI 正式启动转型营利公司 20+ AI 公司获 5000 万美元以上投资,有 2 家中国公司 大模型的幻觉并不是一无是处 以下是我们第 2 期 AI 月报,欢迎大家在留言区补充我们没有提到的重要进展。 技术|10 亿美元没训出 GPT-5,新版 Scaling Laws 初步证明可行,多款世界模型亮相 GPT-5 训练遇阻的更多细节 OpenAI 训练 GPT-5(代号 Orion)遇阻,是大模型能力提升放缓的重要证据。12 月,多家媒体提供了更多的细 节: 2023 年 4 月推出 GPT-4 后,OpenAI 一直在开发 GPT-5,已经持续 20 个月。OpenAI 看到过乐观信号:24 年 4 月 ...
晚点独家丨月之暗面探索 o1,跟字节抢来华为刘征瀛
晚点LatePost· 2024-11-28 14:57
编辑丨程曼祺 本月初经历仲裁风波后,月之暗面在 11 月 16 日发布新的 数学模型 k0-math ,当时月之暗面创始人杨植 麟反复提到 "o1":他将 k0-math 的测评评分与 o1 比较,称其思路与 o1 类似——都采用了强化学习和思 维链技术。 o1 是 OpenAI 在今年 9 月发布的新模型,它有更强推理和数学能力。杨植麟曾在 o1 发布后不久的一场演 讲中说,o1 的出现意味着大模型的范式转换:从预测下一个 token 的规模扩展( Next-Token Predictio Scaling)到强化学习的规模扩展(Reinforcement Learning Scaling)。 11 月发布 k0-math 时,杨植麟提了 23 次强化学习,17 次推理,7 次 o1。 文丨王与桐 从成立至今,月之暗面长期被认为是中国大模型创业公司中,技术人才密度颇高的一家。月之暗面现在仍只 有 100 多人,但汇集了杨植麟和周昕宇两位技术背景创始人,杨植麟发表过两篇大语言模型领域重要论文 [1],周昕宇在旷视期间与现在加入另一家大模型独角兽阶跃星辰的张祥雨,一起发表过单篇引用超 9000 次 的卷积神经网络 ...
灵初智能获高瓴、蓝驰领投天使轮融资,志在挑战具身领域的「不可达三角」
IPO早知道· 2024-11-13 01:57
强化学习开启具身智能初纪元。 本文为IPO早知道原创 作者|Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,灵初智能日前完成天使轮融资,本轮融资由高瓴创投(GL Ventures)和蓝驰创 投(Lanchi Ventures)领投。 本轮融资完成后,灵初智能将继续推进基于强化学习算法的机器人技能集训练、场景化的数据生成及 采集、端到端解决方案的研发及落地,打造业界领先的通用灵巧操作智能体。 灵初智能创始人王启斌博士在手机、智能音箱、机器人领域有近20年的成功操盘经验,多次实现产 品从定义、开发、到上市、再到全球化0-1-N的产业闭环,是一名深谙机器人商业化落地的"老兵" 。联合创始人柴晓杰博士,在机器人及无人驾驶领域从业15年,擅长算法、仿真、工程、全栈技 术,有L4产品落地的数据闭环经验,是量产经验丰富的研发专家。 此外, 灵初智能还被称为"科学家密度最高"的具身智能公司 。灵初与北京大学成立北大-灵初智能 具身灵巧操作联合实验室,由人工智能研究院杨耀东博士担任首席科学家开展横向课题合作。杨耀东 博士是强化学习领域的知名青年学者,他博士毕业于UCL, 是现代深度强化学习的发源地 ...
晚点播客丨OpenAI o1 如何延续 Scaling Law,与硅基流动袁进辉聊 o1 新范式
晚点LatePost· 2024-09-20 15:22
"如果每天和开发者打交道,你不会感觉这个行业停滞或变冷。" 文丨程曼祺 贺乾明 扫描图中右下角二维码,可收听播客。* 这是《晚点聊 LateTalk 的第 80 期节目,欢迎在小宇宙、喜马拉雅、苹果 Podcast 等渠道关注、收听我们。 《晚点聊 LateTalk》是《晚点 LatePost》 推出的播客节目,在文字报道之外,用音频访谈形式捕捉商业世界变化的潮流和不变的逻辑,与这 其中的人和故事。 OpenAI 发布新模型 o1 后的第二天,我们邀请了硅基流动创始人袁进辉与我们分享了 o1 的技术意义,也讨论了今年 1 月至今,袁进辉观察 到的 AI 开发者社区变化。 o1 的一个重要变化就是增加了分配给推理(inference,即大模型的使用)阶段的算力,推理阶段计算(test-time compute)重要性提升。 而袁进辉今年初创立的硅基流动(SiliconFlow)就是一家做推理加速优化的 AI Infra(中间层软件)公司。他是一位连续创业者,曾在 2017 年创立一流科技(OneFlow),在 2023 年加入王慧文组建的大模型创业公司光年之外,成为联合创始人。(袁进辉的上两段创业故事,可 听 ...
OpenAI 再次给大模型 “泡沫” 续命
晚点LatePost· 2024-09-13 15:58
从大语言模型到推理模型。 文丨 贺乾明 但 OpenAI CEO 山姆·阿尔特曼(Sam Altman)的好心情很快就被打断。在他宣布 o1 全量上线的推文下, 排在第一的评论是:"到底什么时候能用上新的语音功能??" 他立刻反击:"能不能先花几个星期感谢感 谢这魔法般的智能,然后再要新玩具?" 这位用户追着阿尔特曼要的不是什么新玩具,是 OpenAI 在今年 5 月就允诺即将到来的 GPT-4o 端到端语 音功能。在当时的现场演示中,这个新的 AI 声音自然、反应极快,还知道什么时候插话,让旁人难辨真 假。按官方时间表,上千万 ChatGPT 付费用户本将在几周内用上这功能,但一直被跳票到现在。 过去一年里,OpenAI 的产品都是类似的 "期货":GPT-4 已上线一年多,OpenAI 的下一代模型 GPT-5 依 然没有发布迹象。OpenAI 今年初发布的视频模型 Sora 也没有大规模开放,到现在都只有少数被他们挑选 的行业人士实际用过。 行业第一的跳票一次次磨损着资本市场对 AI 大模型的耐心。一些中国科技巨头和大模型公司今年年中暂 缓训练基础模型,把更多资源投到应用开发,或把 GPU 算力租给外部 ...