强化学习

Search documents
GPT-5 有了雏形;OpenAI 和 Manus 研发 Agent 的经验;中国大公司扩大算力投资丨 AI 月报
晚点LatePost· 2025-03-08 12:17
2025 年 2 月的全球 AI 重要趋势。 文 丨 贺乾明 2025 年 2 月的 AI 月报,你会看到: 硅谷巨头的新共识:推理能力是大模型的一部分 OpenAI 和 Manus 的 Agent 开发经验 DeepSeek 推动中国大公司加大算力投入,阿里、字节两家加起来,今年就超过 2000 亿 3 家售价过亿的 AI 公司和 23 家获得超过 5000 万美元融资的 AI 公司 OpenAI 时薪 100 美元招专家生产数据提高模型能力 这一期月报中,我们开始邀请研究者、创业者和投资人提供一手视角的对每月 AI 趋势和标志性事件的评述和 洞察。 晚点 AI 月报,每月选取最值得你知道的 AI 信号。 以下是我们第 4 期 AI 月报,欢迎大家在留言区补充我们没有提到的重要趋势。 技术丨GPT-5 雏形出现,行业新共识诞生 DeepSeek 带来的冲击波继续扩散,全球大模型公司陷入混战:不论是马斯克用超过 10 万张 GPU 训练 的 Grok 3,还是 OpenAI 可能投入 10 亿美元训练的 GPT-4.5,或是 Anthropic 融合推理(reasoning) 能力的最新模型 Claude 3 ...
第一批买到宇树机器人的赚麻了
投资界· 2025-03-07 07:15
以下文章来源于科技狐 ,作者老狐 日入过万。 作者 | 老狐 来源 | 科技狐 (ID:kejihutv) 宇树科技的机器人效应,正从春晚舞台蔓延至商业市场。第一批抢到宇树机器人的人,已经赚钱了。 2 月 12 日,宇树科技的 H1 和 G1 人形机器人在京东线上首发开售。其中,G1 起售价 9.9 万元,H1 起售价 65 万元,不过现在 都处于售罄无货阶段。 科技狐 . 一家专注科技互联网领域,每日分享科技、数码、汽车、商业、TMT、AI 的新媒体。 然而,由于现货稀缺,即使直接向宇树订购,交付周期也普遍需要 2 个月。 抢到机器人的买家迅速嗅到了商机,纷纷转向二手市场。 社交平台和二手交易网站上,涌现了大量宇树机器人租赁商家,单台日租金高达 5000 元至 1.5 万元,且档期紧张,甚至出现 " 一 机难求 " 的局面。 这一价格通常包含本地商家运输到场、操作员全天协同护航的费用,不收押金。 如若不需要操作员,部分商家则要求收取高额押金。 如果按照日租 1 万元的价格,低配版的 G1 确实差不多 10 天就能回本。 难怪有人感慨:" 这真是一门好生意。" 继宇树 H1 机器人在春晚《秧 Bot 》中扭出 ...
中国AI门派:汪军与他的学生们
投资界· 2025-03-04 07:41
以下文章来源于雷峰网 ,作者赖文昕 雷峰网 . 洞见智能未来,共与产业变迁 中国强化学习研究的半壁江山。 作者 | 赖文昕 编辑丨陈彩娴 来源 | 雷峰网 (ID:leiphone-sz) 作为一支在 AI 领域历经数十年的研究分支,强化学习仍在历久弥新。 从推荐系统到强化学习 2006 年暑假的一个午后,汪军踏上了从荷兰小城代尔夫特开往首都阿姆斯特丹的火 车,他将在阿姆斯特丹换乘飞机,飞往美国西雅图参加第 29 届国际计算机协会信息检 索大会(ACM SIGIR)。 此时的信息检索领域如日中天,加上微软、雅虎和谷歌三巨头最核心的业务也是搜索, ACM SIGIR 每年都能汇集学术界与工业界的最高人才,来开一场信息检索界的"年 会"。 在华盛顿大学的会场里,汪军在一片掌声中获得了最佳博士联盟奖,于博士毕业的前一 年拿下了信息检索领域博士的最高荣誉。 这位意气风发的青年此刻并未想到,自己将会在 15 年后再获得时间检验奖的荣誉提名 ——2021 年的汪军已转向强化学习(RL)数年,作为发起人之一成立了华人强化学习 社区RL China,为国内强化学习研究培养了一批优秀的青年人才,成为领域的"一代宗 师"。 汪军 ...
UCL强化学习派:汪军与他的学生们
雷峰网· 2025-02-27 10:15
2006 年暑假的一个午后,汪军踏上了从荷兰小城代尔夫特开往首都阿姆斯特丹的火车,他将在阿姆斯特丹换 乘飞机,飞往美国西雅图参加第 29 届国际计算机协会信息检索大会(ACM SIGIR)。 " 他们构成中国强化学习研究的半壁江山。 " 作者丨赖文昕 编辑丨陈彩娴 作为一支在 AI 领域历经数十年的研究分支,强化学习仍在历久弥新。 01 从推荐系统到强化学习 此时的信息检索领域如日中天,加上微软、雅虎和谷歌三巨头最核心的业务也是搜索,ACM SIGIR 每年都能 汇集学术界与工业界的最高人才,来开一场信息检索界的"年会"。 在华盛顿大学的会场里,汪军在一片掌声中获得了最佳博士联盟奖,于博士毕业的前一年拿下了信息检索领域 博士的最高荣誉。 这位意气风发的青年此刻并未想到,自己将会在 15 年后再获得时间检验奖的荣誉提名——2021 年的汪军已 转向强化学习(RL)数年,作为发起人之一成立了华人强化学习社区RL China,为国内强化学习研究培养了 一批优秀的青年人才,成为领域的"一代宗师"。 汪军 汪军出生于江苏南京,1993 年从金陵中学毕业后开始在东南大学攻读电子工程专业。本科毕业后,他先在工 业界工作三年 ...
Deepseek背景综述及在金融领域应用场景初探
China Post Securities· 2025-02-26 11:07
证券研究报告:金融工程报告 2025 年 2 月 24 日 研究所 分析师:肖承志 SAC 登记编号:S1340524090001 Email:xiaochengzhi@cnpsec.com 研究助理:冯昱文 SAC 登记编号:S1340124100011 Email:fengyuwen@cnpsec.com 近期研究报告 《聚焦 AI 主线,GRU 行业轮动 2020 年 后首次配置半仓成长——行业轮动周 报 20250223》 - 2025.02.24 《基本面回撤,高波风格持续——中 邮因子周报 20250209》 - 2025.02.10 《各资金持续流入机器人,短期注意 回调风险,行业轮动开始超配成长— —行业轮动周报 20250209》 - 2025.02.10 《全面牛市正在到来,微盘有望修复 前高 ——微盘股指数周报 20250209》 - 2025.02.10 《基本面表现强势,风格切换加速— —中邮因子周报 20250126》 - 2025.01.27 《节前融资资金大幅净流出,ETF 资金 聚焦机器人以及红利——行业轮动周 报 20250126》 - 2025.01.26 《信号全部翻多 ...
晚点播客丨硅谷怎么看 DeepSeek?与 FusionFund 张璐聊开源、Agent 和除了 AI
晚点LatePost· 2025-02-13 13:01
技术的力量,开源的力量,初创生态的力量。 整理丨刘倩 ▲扫描上图中的二维码,可收听播客。《晚点聊 LateTalk》#100 期节目。欢迎在小宇宙、喜马拉雅、苹果 Podcast 等渠道关注、收听我们。 《晚点聊 LateTalk》是《晚点 LatePost》推出的播客节目。"最一手的商业、科技访谈,最真实的从业者思考。" 2025 年 1 月,农历春节也没有让模型竞赛丝毫减速。DeepSeek 发布开源推理模型 R1,以相对低的成本,在一些 Benchmark 上比 肩,甚至超越了 o1 的表现,在全球掀起了广泛讨论。 这期节目,我们邀请了 2015 年,在硅谷创立了 Fusion Fund 的投资人张璐,来和我们一起聊一聊,当前美国科技圈和硅谷语境中, 对 DeepSeek 等模型的讨论。 我们也延展聊了 DeepSeek-R1 和 o1 等推理模型打开的 Agent(智能体)应用空间;以及在美国的科技投资视野中,除了 AI,大家还 在关注什么。 Fusion Fund 曾投资 Grubmarket、Al 会议公司 Otter.ai 还有 Al 与医疗结合的公司 Subtle Medical 等。在 Al ...
人形机器人行业周报(第1期):Figure终止合作OpenAI,特斯拉招聘机器人量产工程师【国信汽车】
车中旭霞· 2025-02-11 12:58
核心观点 市场表现: 2025/2/3-2/7,我们构建的国信人形机器人指数上涨14.28%,强于沪深300指数12.3pct,强于上证综合指数12.64pct,年初至今上涨51.77%;部分核心公司中拓普集团 上涨11.48%,三花智控上涨15.54%,北特科技上涨7.16%,双林股份上涨6.63%,贝斯特上涨11.31%,长华集团上涨0.32%,祥鑫科技上涨17.4%,双环传动上涨7.94%,斯菱股 份上涨13.12%,豪能股份上涨7.27%,精锻科技上涨4.75%,蓝黛科技上涨7.96%,凌云股份上涨10.84%,旭升集团上涨11.84%,肇民科技上涨7.4%,爱柯迪上涨6.1%,整体来 看机器人板块表现较为强势。 行业动态: 行业新闻方面: 1)华依科技推出国产高精度ARU人形机器人专用姿态传感器,成为国内某头部人形机器人制造商新一代人形机器人的IMU供应商;2)Figure宣布终 止与OpenAI合作,并表示其在完全自主研发的端到端机器人AI方面取得重大突破,还承诺将在未来30天内展示新的进展;3)波士顿动力公司宣布与机器人与人工智能研究所 (RAI Institute)达成合作,旨在为其电动人形机 ...
AI 月报:10 亿美元训练不出 GPT-5;低成本中国开源大模型走红;AI 幻觉不全是坏处
晚点LatePost· 2025-01-07 14:59
2024 年 12 月的全球 AI 大事记。 文丨贺乾明 编辑丨程曼祺 2024 年 12 月的 AI 月报,你会看到: OpenAI、Google 发布新模型,中国的 DeepSeek 也抢到了风头 GPT-5 训练遇阻的更多细节 强化学习的重要性持续提升 至少有三个团队推出了世界模型 Google 霸占大模型竞技场前三 中国公司在开源社区存在感大涨 博通帮大公司自研 AI 芯片,市值破万亿美元 OpenAI 正式启动转型营利公司 20+ AI 公司获 5000 万美元以上投资,有 2 家中国公司 大模型的幻觉并不是一无是处 以下是我们第 2 期 AI 月报,欢迎大家在留言区补充我们没有提到的重要进展。 技术|10 亿美元没训出 GPT-5,新版 Scaling Laws 初步证明可行,多款世界模型亮相 GPT-5 训练遇阻的更多细节 OpenAI 训练 GPT-5(代号 Orion)遇阻,是大模型能力提升放缓的重要证据。12 月,多家媒体提供了更多的细 节: 2023 年 4 月推出 GPT-4 后,OpenAI 一直在开发 GPT-5,已经持续 20 个月。OpenAI 看到过乐观信号:24 年 4 月 ...
晚点独家丨月之暗面探索 o1,跟字节抢来华为刘征瀛
晚点LatePost· 2024-11-28 14:57
编辑丨程曼祺 本月初经历仲裁风波后,月之暗面在 11 月 16 日发布新的 数学模型 k0-math ,当时月之暗面创始人杨植 麟反复提到 "o1":他将 k0-math 的测评评分与 o1 比较,称其思路与 o1 类似——都采用了强化学习和思 维链技术。 o1 是 OpenAI 在今年 9 月发布的新模型,它有更强推理和数学能力。杨植麟曾在 o1 发布后不久的一场演 讲中说,o1 的出现意味着大模型的范式转换:从预测下一个 token 的规模扩展( Next-Token Predictio Scaling)到强化学习的规模扩展(Reinforcement Learning Scaling)。 11 月发布 k0-math 时,杨植麟提了 23 次强化学习,17 次推理,7 次 o1。 文丨王与桐 从成立至今,月之暗面长期被认为是中国大模型创业公司中,技术人才密度颇高的一家。月之暗面现在仍只 有 100 多人,但汇集了杨植麟和周昕宇两位技术背景创始人,杨植麟发表过两篇大语言模型领域重要论文 [1],周昕宇在旷视期间与现在加入另一家大模型独角兽阶跃星辰的张祥雨,一起发表过单篇引用超 9000 次 的卷积神经网络 ...
灵初智能获高瓴、蓝驰领投天使轮融资,志在挑战具身领域的「不可达三角」
IPO早知道· 2024-11-13 01:57
强化学习开启具身智能初纪元。 本文为IPO早知道原创 作者|Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,灵初智能日前完成天使轮融资,本轮融资由高瓴创投(GL Ventures)和蓝驰创 投(Lanchi Ventures)领投。 本轮融资完成后,灵初智能将继续推进基于强化学习算法的机器人技能集训练、场景化的数据生成及 采集、端到端解决方案的研发及落地,打造业界领先的通用灵巧操作智能体。 灵初智能创始人王启斌博士在手机、智能音箱、机器人领域有近20年的成功操盘经验,多次实现产 品从定义、开发、到上市、再到全球化0-1-N的产业闭环,是一名深谙机器人商业化落地的"老兵" 。联合创始人柴晓杰博士,在机器人及无人驾驶领域从业15年,擅长算法、仿真、工程、全栈技 术,有L4产品落地的数据闭环经验,是量产经验丰富的研发专家。 此外, 灵初智能还被称为"科学家密度最高"的具身智能公司 。灵初与北京大学成立北大-灵初智能 具身灵巧操作联合实验室,由人工智能研究院杨耀东博士担任首席科学家开展横向课题合作。杨耀东 博士是强化学习领域的知名青年学者,他博士毕业于UCL, 是现代深度强化学习的发源地 ...