强化学习 - filings, earnings calls, financial reports, news

强化学习

Search documents

3 6 Ke· 2025-06-20 12:00

超级智能（Superintelligence）是处于 AGI 之上、甚至通用能力超过人类的更高维 AI 发展方向。学术头条在不改变原文大意的情况下，对整体内容做了精编，如下：然而，在 Meta AI 研究员 Jack Morris 看来，Altman 提到超级智能的"工程问题"，在于"构建大量适用于不同任务的 RL 环境，并训练 LLM 同时处理所有这些任务"。他认为，这一由 OpenAI 等公司当前大力推进的路径——基于 LLM 的 RL——根本无法构建超级智能。 "我谦卑的预测是：LLM 将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练，这将产生在广泛任务上越来越有用的 LLM。但它不会成为一个单一的超级智能模型。" Morris 在一篇题为"Superintelligence, from First Principles"的博客中，探讨了构建超级智能的 3 种可能方式：完全由监督学习（SL）、来自人类验证者的强化学习（RL）、来自自动验证器的 RL。扎克伯格不惜以一亿美金年薪挖角 OpenAI 等竞争对手的动作背后，便暴露了 Meta 等头部玩家追求"超级智能"的巨大野 ...

Meta Platforms(US:META)

京东集团算法总监韩艾将在 AICon 北京站分享基于强化学习的异构多智能体联合进化算法

AI前线· 2025-06-20 02:47

6 月 27 日 -6 月 28 日， AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践，邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+ 资深专家，深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。京东集团算法总监韩艾已确认出席并发表题为《 JDAgents-R1：基于强化学习的异构多智能体联合进化算法》的主题分享。多智能体强化学习（MARL）已成为处理日益复杂任务的重要范式。然而，异构智能体之间的联合进化仍面临合作效率低与训练不稳定等挑战。为此，京东提出了一种面向 MARL 的联合进化算法框架 JDAgents-R1 ，该方法首次将组相对策略优化（GRPO）应用于异构多智能体的联合训练中。通过迭代优化智能体的大语言模型（LLMs）与自适应记忆机制，JDAgents-R1 实现了决策能力与记忆能力的动态均衡，并能有效减少重复推理、加快训练收敛。在通用场景以及商家定 ...

VR-Robo：real2sim2real，机器人视觉强化学习导航和运动控制新范式！

具身智能之心· 2025-06-20 00:44

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Shaoting Zhu等编辑丨具身智能之心近年来，得益于强化学习与高性能仿真器的结合，足式机器人在自主运动控制方面取得了显著进展。然而，当这些策略部署到现实世界中时，往往因"仿真到现实（Sim-to-Real）"存在差异而表现不佳。现有方法难以复现真实场景中的复杂几何和视觉细节，限制了基于视觉感知的高层次任务（如目标导航）的开展。为解决这一难题，我们提出了VR-Robo：一个面向足式机器人视觉导航与运动控制的"真实-仿真-真实（Real-to-Sim-to-Real）"统一框架。作者单位包括清华大学、普林斯顿大学、星海图、上海期智研究院和上海交通大学。项目主页/代码（现已开源）：https://vr-robo.github.io/ 相关工作以往研究为缩小Sim-to-Real差距做了大量探索。包括：但这些方法多依赖特定传感器，难以在高保真渲染和真实几何建模之间取得平衡。此外，许多方法仅支持低层次的运动控制，尚未形成完整的感知-理解-行动闭环。解决方案本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术 ...

具身智能

强化学习

真实 - 仿真 - 真实（Real - to - Sim - to - Real）

真实 - 仿真 - 真实（Real - to - Sim - to - Real）

Robotics

VR - Robo

小鹏想要的，不止“留在牌桌上”

虎嗅APP· 2025-06-19 23:55

出品丨虎嗅汽车组作者丨李赓头图丨视觉中国在所有造车新势力中，今年1-5月依旧保持高速增长的只有两家：小鹏和零跑。两家车企的销量都保持了大幅的提升（1-5月零跑相比去年同期增长161%，小鹏增长293%），今年一季度的营收也实现了大幅增长（零跑同比增幅187%，小鹏同比142%），净亏损则实现了大幅的收窄（零跑净亏损缩小87%，小鹏净亏损缩小52%）。除去数据上的略微不同，更加不同的是两家心态的外露。零跑依旧保持了自己不怎么开发布会不怎么大力做营销的状态（今年正式发布会也就两场，而且全是车型更新），而去年刚"触底反弹"的小鹏显然更加"珍惜"市场给的又一次机会，在方方面面都选择了投入到"极点"，几乎每个车型都要按着"曝光、预热、预发布、实际发布、会后沟通"的充分流程走下来，更是在一众车企中罕见地结合产品发布会搞了几次针对实际车主的品牌文化活动。就拿4月中，上海车展开幕前夕的关键时刻，何小鹏就跑到了香港去，不仅豪横地再次定下了香港启德邮轮码头的场地（2021赴港上市，也是这块场地），请了近500家中外媒体看新款X9发布。在主活动之外，小鹏还在香港独立地举办了两场媒体沟 ...

Hu Xiu· 2025-06-19 23:13

在所有造车新势力中，今年1-5月依旧保持高速增长的只有两家：小鹏和零跑。两家车企的销量都保持了大幅的提升（1-5月零跑相比去年同期增长161%，小鹏增长293%），今年一季度的营收也实现了大幅增长（零跑同比增幅187%，小鹏同比142%），净亏损则实现了大幅的收窄（零跑净亏损缩小87%，小鹏净亏损缩小52%）。除去数据上的略微不同，更加不同的是两家心态的外露。零跑依旧保持了自己不怎么开发布会不怎么大力做营销的状态（今年正式发布会也就两场，而且全是车型更新），而去年刚"触底反弹"的小鹏显然更加"珍惜"市场给的又一次机会，在方方面面都选择了投入到"极点"，几乎每个车型都要按着"曝光、预热、预发布、实际发布、会后沟通"的充分流程走下来，更是在一众车企中罕见地结合产品发布会搞了几次针对实际车主的品牌文化活动。就拿4月中，上海车展开幕前夕的关键时刻，何小鹏就跑到了香港去，不仅豪横地再次定下了香港启德邮轮码头的场地（2021赴港上市，也是这块场地），请了近500家中外媒体看新款X9发布。在主活动之外，小鹏还在香港独立地举办了两场媒体沟通会，披露了超大规模"基座模型"和出海的规划和进展。在前不久的G7预发布 ...

羽毛球机器人如何“看得清”“动得准”？（创新汇）

Ren Min Ri Bao· 2025-06-19 21:51

Group 1 - A new bipedal robot developed by the Swiss Federal Institute of Technology in Zurich can predict the trajectory of a badminton shuttlecock and adjust its position to hit it back to a human opponent, showcasing advanced perception and coordination capabilities [2][3] - The robot's ability to track the shuttlecock relies on a perception noise model that quantifies the impact of its own movements on target tracking, allowing it to adapt to dynamic blurs and occlusions [3][4] - The robot can perform 10 consecutive hits in a single rally with nearly 100% success rate for shots landing in the center of the court, demonstrating its effective coordination of 18 joints through a unified control framework [3][4] Group 2 - The average time for the robot to react from detecting an opponent's hit to executing a swing is approximately 0.35 seconds, indicating room for improvement in its perception and response capabilities [4] - Future enhancements will involve integrating more sensors and optimizing visual algorithms, aiming to extend the robot's applications beyond sports to complex scenarios requiring rapid response and coordination [4] - Bipedal robots are expected to gain traction in various fields such as industrial applications, entertainment, home life, and elder care, driven by advancements in AI and robotics, leading to lower production costs and enhanced functionalities [5]

推荐大模型来了？OneRec论文解读：端到端训练如何同时吃掉效果与成本

机器之心· 2025-06-19 09:30

机器之心报道机器之心编辑部人人都绕不开的推荐系统，如今正被注入新的 AI 动能。随着 AI 领域掀起一场由大型语言模型（LLM）引领的生成式革命，它们凭借着强大的端到端学习能力、海量数据理解能力以及前所未有的内容生成潜力，开始重塑各领域的传统技术栈。作为互联网流量的核心引擎，推荐系统面临着级联架构导致的算力碎片化、优化目标割裂等问题，并逐渐制约其创新发展。实现从碎片化拼装到一体化整合的范式跃迁，是推荐系统重焕生机的必由之路，而利用 LLM 技术重构架构以实现效果提升、成本降低成为关键。近日，快手技术团队交出了他们的答卷，最新提出的「OneRec」首次以端到端生成式架构重构推荐系统全链路。在效果与成本这场看似零和的博弈中，OneRec 让「既要又要」成为可能：目前，该系统已在快手 App / 快手极速版双端服务所有用户，承接约 25% 的QPS（每秒请求数量），带动 App 停留时长提升 0.54%/1.24%，关键指标 7 日用户生命周期（LT7）显著增长，为推荐系统从传统 Pipeline 迈向端到端生成式架构提供了首个工业级可行方案。下图（左）展示了快手 / 快手极速版中 O ...

Jing Ji Guan Cha Wang· 2025-06-18 11:32

2025年2月，DeepSeek火爆出圈，除了免费和好用之外，还因其仅以500万至600万美元的GPU成本，就训练出了与OpenAI o1能力不相上下的DeepSeek R1模型，引起行业震撼，不过这一成本数据也引发了广泛争议。 MiniMax称，M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU，耗时三周，成本仅为53.5万美元，这一成本"比最初的预期少了一个数量级"。 MiniMax解释，MiniMax M1的强文本处理能力和更低成本，背后是两大核心技术作为支撑，一是线性注意力机制（Lightning Attention）混合构架和强化学习算法CISPO。例如，CISPO算法通过裁剪重要性采样权重，而非传统算法中调整Token的更新方式，来提升强化学习的效率和稳定性。经济观察报记者陈月芹 6月17日，MiniMax（稀宇科技）宣布其自主研发的MiniMax M1模型开源，并计划在未来5天内每天发布一项新产品或新技术。而这款MiniMax M1模型，在关键技术规格、架构设计、上下文处理能力、训练成本等维度全面对标DeepSeek R1，甚至是谷歌Gemini 2.5 Pro ...

线性注意力机制（Lightning Attention）

线性注意力机制（Lightning Attention）

人工智能

MiniMax M1模型

【广发金工】强化学习与价格择时

广发金融工程研究· 2025-06-18 01:33

择时策略：本文以DDQN作为核心模型，采用10分钟频的量价数据作为模型输入，择时策略的目标是让模型学会在各个时间节点给出买入/卖出/继续持有/继续空仓等信号，并使得期末收益最大化。在回测环节，强化学习模型每10分钟输出择时信号，并遵循t+1规则进行交易。若当天出现多个买入/卖出信号，则仅选择每天出现的第一个买入/卖出信号进行交易，且当日买入的无法在当日卖出。实证分析：本文策略是对单一标的进行择时，其中包括流动性较好的某沪深300ETF、中证500ETF、中证 1000ETF以及某个股。在样本外2023/01/01~2025/05/31期间，按照t+1交易规则，本文策略在上述4个择时标的中分别产生了72、30、73、188次择时信号（一买一卖算一次），平均胜率分别为52.8%、53.3%、 54.8%、51.6%，期末累计收益分别跑赢基准标的10.9%、35.5%、64.9%、37.8%。广发证券首席金工分析师安宁宁 anningning@gf.com.cn 广发证券联席首席金工分析师陈原文 chenyuanwen@gf.com.cn 联系人：广发证券金工研究员林涛 gflintao@gf ...

GF SECURITIES(SZ:000776)

MiniMax开源首个推理模型，456B参数，性能超DeepSeek-R1，技术报告公开

3 6 Ke· 2025-06-17 08:15

智东西6月17日报道，今日凌晨，"大模型六小虎"之一MiniMax发布全球首个开源大规模混合架构的推理模型MiniMax-M1，并官宣了为期五天的连更计划。 M1参数规模为4560亿，每个token激活459亿参数，原生支持100万上下文输入以及业内最长的8万token推理输出，输入长度与闭源模型谷歌Gemini 2.5 Pro 一致，是DeepSeek-R1的8倍。此外，研究人员训练了两个版本的MiniMax-M1模型，其思考预算分别为40k和80k。 MiniMax在标准基准测试集上的对比显示，在复杂的软件工程、工具使用和长上下文任务方面，MiniMax-M1优于DeepSeek-R1和Qwen3-235B等开源模型。其博客提到，在M1的整个强化学习阶段，研究人员使用512块H800训练了三周，租赁成本为53.74万美金（折合人民币约385.9万元），相比其一开始的成本预期少了一个数量级。 M1在MiniMax APP和Web上支持不限量免费使用。API价格方面，第一档0-32k的输入长度时，输入0.8元/百万token，输出8元/百万token；第二档32k- 128k的输入长度时，输入1.2 ...

Seek .(US:SKLTY)

大语言模型

强化学习

Artificial Intelligence

Artificial Intelligence

MiniMax-M1

Kimi-Dev

Previous Next