强化学习 - filings, earnings calls, financial reports, news

强化学习

Search documents

AI 月报：10 亿美元训练不出 GPT-5；低成本中国开源大模型走红；AI 幻觉不全是坏处

晚点LatePost· 2025-01-07 14:59

2024 年 12 月的全球 AI 大事记。文丨贺乾明编辑丨程曼祺 2024 年 12 月的 AI 月报，你会看到： OpenAI、Google 发布新模型，中国的 DeepSeek 也抢到了风头 GPT-5 训练遇阻的更多细节强化学习的重要性持续提升至少有三个团队推出了世界模型 Google 霸占大模型竞技场前三中国公司在开源社区存在感大涨博通帮大公司自研 AI 芯片，市值破万亿美元 OpenAI 正式启动转型营利公司 20+ AI 公司获 5000 万美元以上投资，有 2 家中国公司大模型的幻觉并不是一无是处以下是我们第 2 期 AI 月报，欢迎大家在留言区补充我们没有提到的重要进展。技术｜10 亿美元没训出 GPT-5，新版 Scaling Laws 初步证明可行，多款世界模型亮相 GPT-5 训练遇阻的更多细节 OpenAI 训练 GPT-5（代号 Orion）遇阻，是大模型能力提升放缓的重要证据。12 月，多家媒体提供了更多的细节： 2023 年 4 月推出 GPT-4 后，OpenAI 一直在开发 GPT-5，已经持续 20 个月。OpenAI 看到过乐观信号：24 年 4 月 ...

晚点独家丨月之暗面探索 o1，跟字节抢来华为刘征瀛

晚点LatePost· 2024-11-28 14:57

编辑丨程曼祺本月初经历仲裁风波后，月之暗面在 11 月 16 日发布新的数学模型 k0-math ，当时月之暗面创始人杨植麟反复提到 "o1"：他将 k0-math 的测评评分与 o1 比较，称其思路与 o1 类似——都采用了强化学习和思维链技术。 o1 是 OpenAI 在今年 9 月发布的新模型，它有更强推理和数学能力。杨植麟曾在 o1 发布后不久的一场演讲中说，o1 的出现意味着大模型的范式转换：从预测下一个 token 的规模扩展（ Next-Token Predictio Scaling）到强化学习的规模扩展（Reinforcement Learning Scaling)。 11 月发布 k0-math 时，杨植麟提了 23 次强化学习，17 次推理，7 次 o1。文丨王与桐从成立至今，月之暗面长期被认为是中国大模型创业公司中，技术人才密度颇高的一家。月之暗面现在仍只有 100 多人，但汇集了杨植麟和周昕宇两位技术背景创始人，杨植麟发表过两篇大语言模型领域重要论文 [1]，周昕宇在旷视期间与现在加入另一家大模型独角兽阶跃星辰的张祥雨，一起发表过单篇引用超 9000 次的卷积神经网络 ...

Artificial Intelligence

Artificial Intelligence

k0 - math

灵初智能获高瓴、蓝驰领投天使轮融资，志在挑战具身领域的「不可达三角」

IPO早知道· 2024-11-13 01:57

强化学习开启具身智能初纪元。本文为IPO早知道原创作者｜Stone Jin 微信公众号｜ipozaozhidao 据IPO早知道消息，灵初智能日前完成天使轮融资，本轮融资由高瓴创投（GL Ventures）和蓝驰创投（Lanchi Ventures）领投。本轮融资完成后，灵初智能将继续推进基于强化学习算法的机器人技能集训练、场景化的数据生成及采集、端到端解决方案的研发及落地，打造业界领先的通用灵巧操作智能体。灵初智能创始人王启斌博士在手机、智能音箱、机器人领域有近20年的成功操盘经验，多次实现产品从定义、开发、到上市、再到全球化0-1-N的产业闭环，是一名深谙机器人商业化落地的"老兵" 。联合创始人柴晓杰博士，在机器人及无人驾驶领域从业15年，擅长算法、仿真、工程、全栈技术，有L4产品落地的数据闭环经验，是量产经验丰富的研发专家。此外，灵初智能还被称为"科学家密度最高"的具身智能公司。灵初与北京大学成立北大-灵初智能具身灵巧操作联合实验室，由人工智能研究院杨耀东博士担任首席科学家开展横向课题合作。杨耀东博士是强化学习领域的知名青年学者，他博士毕业于UCL, 是现代深度强化学习的发源地 ...

晚点播客丨OpenAI o1 如何延续 Scaling Law，与硅基流动袁进辉聊 o1 新范式

晚点LatePost· 2024-09-20 15:22

"如果每天和开发者打交道，你不会感觉这个行业停滞或变冷。" 文丨程曼祺贺乾明扫描图中右下角二维码，可收听播客。* 这是《晚点聊 LateTalk 的第 80 期节目，欢迎在小宇宙、喜马拉雅、苹果 Podcast 等渠道关注、收听我们。《晚点聊 LateTalk》是《晚点 LatePost》推出的播客节目，在文字报道之外，用音频访谈形式捕捉商业世界变化的潮流和不变的逻辑，与这其中的人和故事。 OpenAI 发布新模型 o1 后的第二天，我们邀请了硅基流动创始人袁进辉与我们分享了 o1 的技术意义，也讨论了今年 1 月至今，袁进辉观察到的 AI 开发者社区变化。 o1 的一个重要变化就是增加了分配给推理（inference，即大模型的使用）阶段的算力，推理阶段计算（test-time compute）重要性提升。而袁进辉今年初创立的硅基流动（SiliconFlow）就是一家做推理加速优化的 AI Infra（中间层软件）公司。他是一位连续创业者，曾在 2017 年创立一流科技（OneFlow），在 2023 年加入王慧文组建的大模型创业公司光年之外，成为联合创始人。（袁进辉的上两段创业故事，可听 ...

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

OpenAI 再次给大模型 “泡沫” 续命

晚点LatePost· 2024-09-13 15:58

从大语言模型到推理模型。文丨贺乾明但 OpenAI CEO 山姆·阿尔特曼（Sam Altman）的好心情很快就被打断。在他宣布 o1 全量上线的推文下，排在第一的评论是："到底什么时候能用上新的语音功能？？" 他立刻反击："能不能先花几个星期感谢感谢这魔法般的智能，然后再要新玩具？" 这位用户追着阿尔特曼要的不是什么新玩具，是 OpenAI 在今年 5 月就允诺即将到来的 GPT-4o 端到端语音功能。在当时的现场演示中，这个新的 AI 声音自然、反应极快，还知道什么时候插话，让旁人难辨真假。按官方时间表，上千万 ChatGPT 付费用户本将在几周内用上这功能，但一直被跳票到现在。过去一年里，OpenAI 的产品都是类似的 "期货"：GPT-4 已上线一年多，OpenAI 的下一代模型 GPT-5 依然没有发布迹象。OpenAI 今年初发布的视频模型 Sora 也没有大规模开放，到现在都只有少数被他们挑选的行业人士实际用过。行业第一的跳票一次次磨损着资本市场对 AI 大模型的耐心。一些中国科技巨头和大模型公司今年年中暂缓训练基础模型，把更多资源投到应用开发，或把 GPU 算力租给外部 ...