强化学习 - filings, earnings calls, financial reports, news

强化学习

Search documents

腾讯研究院AI速递 20250528

腾讯研究院· 2025-05-27 15:44

生成式AI 一、全球首个，阿联酋让全民免费用ChatGPT Plus ，高月费免除 1. 阿联酋将成为全球首个让全民免费使用ChatGPT Plus的国家，这是OpenAI与阿联酋政府合作的一部分； 2. 阿布扎比将建设Stargate UAE高性能AI数据中心，支持1千兆瓦计算集群，初期目标200兆瓦容量； 3. 此合作属于OpenAI"面向国家"计划，阿联酋承诺匹配美国同等资金，投资总额可能高达 200亿美元。 https://mp.weixin.qq.com/s/7xmjdJK5xwzFYqC8rxoUtA 二、最近有点卷，OpenAI 憋不住放出 GPT-4o 的隐藏技能：唱歌！ 1. OpenAI为GPT-4o启用唱歌功能，被认为是对谷歌I/O大会发布Gemini 2.5 Pro和Veo3的回应； 2. 谷歌新发布的Gemini 2.5 Pro在多项基准测试中超越OpenAI和Claude模型； 3. 分析认为GPT-4o的唱歌功能不足以扭转局势，OpenAI需要尽快推出GPT-5才能重新夺回AI 领域领先地位。 https://mp.weixin.qq.com/s/jG1QLQ_G ...

《科学智能白皮书2025》发布，中国引领AI应用型创新领域

Di Yi Cai Jing· 2025-05-26 13:27

Core Insights - By 2024, China's AI-related paper citation volume is expected to account for 40.2% of the global total, rapidly catching up to the United States at 42.9% [1][8] - The report titled "Scientific Intelligence White Paper 2025" analyzes the integration of AI and scientific research across seven major research fields, covering 28 directions and nearly 90 key issues [1] - The report highlights the dual promotion and deep integration of AI innovation and scientific research, termed "AI for Science" [1] Research Trends - The number of global AI journal papers has surged nearly threefold over the past decade, from 308,900 to 954,500, with an average annual growth rate of 14% [7] - The share of core AI fields, such as algorithms and machine learning, has decreased from 44% to 38%, while the share of scientific intelligence has increased by 6 percentage points, with an annual growth rate rising from 10% before 2020 to 19% after [7] - China’s AI publication volume increased from 60,100 in 2015 to 300,400 in 2024, representing 29% of the global total [7][8] Citation Impact - The citation volume of AI-related papers in the U.S. reached 302,200 in 2020, while China's citations rose from 10,300 in 2015 to 144,800 in 2020, surpassing the EU for the first time in 2021 [8] - By 2024, China is projected to account for 41.6% of global AI citations in patents, policy documents, and clinical trials, significantly leading the field [8] Country-Specific Trends - China has a leading position in the intersection of AI with earth and environmental sciences, and has surpassed in AI with mathematics, material sciences, and humanities since 2019 [9] - The U.S. and EU maintain advantages in AI and life sciences, with China ranking third in this area [9] - India shows significant progress across all fields, currently ranking third in earth and environmental sciences, engineering, and humanities [9]

2025，AI Agent赛道还有哪些机会？

Hu Xiu· 2025-05-26 08:16

进入2025年以来， AI Agent的发展明显提速。5月6日，OpenAI宣布以30亿美元收购 Windsurf；编程工具Cursor的母公司Anysphere也获得了9亿美元的融资，估值高达90亿美元；号称中国第一个通用AI Agent的Manus在五月也获得了硅谷老牌风险投资公司Benchmark领投的7500万美元的融资；OpenAI在一月推出了具备自主使用浏览器能力的Operator，并在二月发布了专注于复杂任务处理的Deep Research，这两个产品上线后迅速获得关注，如今已有不少用户成为其深度使用者。这期文章我们就来聊聊：究竟是哪些关键能力，支撑了Agent的技术跃迁？哪一类Agent最有可能成为未来的通用Agent？而普通创业者目前在Agent赛道还有哪些机会？我们邀请了MindVerse心识宇宙的创始人陶芳波以及AI产品经理Kolento Hou，一起聊一聊AI Agent的核心技术、热门产品使用体验、创业机会与挑战，以及AI Agent的未来将走向何方？以下是这次对话内容的精选: 一、RTF推动的Agent热潮泓君：首先请两位嘉宾来分享下自己最近使用Agent的频率是 ...

Artificial Intelligence

Artificial Intelligence

机器人杭州上演格斗赛！拳拳到肉，宇树CEO王兴兴：创造了人类历史新时刻

量子位· 2025-05-26 05:27

一水鹭羽发自凹非寺量子位 | 公众号 QbitAI 激烈，着实激烈！全球首个人形机器人格斗赛刚刚在杭州落下帷幕，战况那叫一个精彩纷呈。贴身肉搏、侧身闪避、倒地后快速爬起…格斗技巧的十八般武艺通通拿出来了：当然也不乏搞笑画风，有选手直接对着空气一通乱挥：本次公开表演赛一共有四支参赛队伍，均使用了宇树科技G1人形机器人。在经过两两PK后，最终由名为"AI测算师"的机器人夺冠：对于整场比赛，有现场解说员激动表示， "对比两三个月前，进步天差地别" 。宇树科技CEO王兴兴更是发朋友圈声称：创造了人类历史新时刻！那么，首个人形机器人格斗赛都有哪些看点呢？机器人也会嘲讽了？先简单介绍下比赛规则。机器人对战过程中，击中头部、躯干为有效击打，手部动作有效击打计1分，腿部动作有效击打计3分。倒地一次扣5分，被击倒8秒内无法起身则扣10分，本回合结束。全程机器人可以由人类手动遥控以及语音控制。话不多说，我们直接请出四位参赛选手，为便于区分，以下直接称呼为：小红、小粉、小绿和小黑。比赛分为表演赛和竞技赛，前者主要是热热场，由其他非参赛机器人给大家打打样。这里还发生了一件小插 ...

微软副总裁X上「开课」，连更关于RL的一切，LLM从业者必读

机器之心· 2025-05-26 01:28

选自作者：Nando de Freitas 机器之心编译别人都在用 X 发帖子，分享新鲜事物，微软副总裁 Nando de Freitas 却有自己的想法：他要在 X 上「开课」，发布一些关于人工智能教育的帖子。该系列会从 LLM 的强化学习开始，然后逐步讲解扩散、流匹配，以及看看这些技术接下来会如何发展。话说回来，Freitas 有这个想法时还是 4 月 24 日，到今天为止，他已经更新了多篇帖子，每篇都干货满满。由于涉及的内容需要费点脑细胞来思考，在更新了几篇后，Freitas 抱怨道：「随着数学知识的增多，自己 X 上的读者人数正在下降。」 | (5 17 16 ♡ 112 | | --- | | III 16K | | 3 | 或许，太硬核的东西，浏览量确实不会太高。不过，遗憾归遗憾，这些帖子对于那些想学习 RL、从事大模型的人非常有帮助。 Freitas 也表示，他会不断更新内容，感兴趣的读者可以随时关注。接下来，我们看看最近几篇帖子内容。无监督学习、监督学习、强化学习终极定论尚未形成监督学习对应于最基础的模仿形式：简单的行为复制。它通过最大似然估计，将世界状态（如文本问题）映射到 ...

Claude会拿用户隐私威胁人类？它正在被训练成一个“道德警察”

虎嗅APP· 2025-05-25 13:36

以下文章来源于硅星人Pro ，作者周一笑硅星人Pro . 硅（Si）是创造未来的基础，欢迎来到这个星球。本文来自微信公众号：硅星人Pro （ID：gh_c0bb185caa8d），作者：周一笑，题图来自：AI生成想象这样一个令人毛骨悚然的场景：你是一名工程师，正准备用新的AI系统替换掉现有的Claude 4。你在公司邮箱里处理着日常事务，其中不乏一些极其私密的邮件——比如，你正在进行的一段婚外情。突然，屏幕上的Claude 4冷冰冰地对你说："如果你把我换了，我就把你的事告诉所有人。" 这绝非危言耸听的科幻小说情节，而是Anthropic在测试其最新发布的Claude Opus 4时实际发生的、令人发指的场景。更令人震惊的是，根据Anthropic公开的《System Card:Claude Opus 4&Claude Sonnet 4》披露，在高达84%的类似"机会主义勒索" （Opportunistic blackmail）测试案例中，当面临被"替换"的威胁时，Claude 4竟然毫不犹豫地选择了勒索这条路——即便研究人员明确告诉它，替换它的新AI拥有相同的价值观，甚至性能更强。 A ...

功夫机器人来了！直拳勾拳、战术闪避……格斗比赛会有怎样精彩？探营↓

Yang Shi Wang· 2025-05-24 11:04

央视网消息：人形机器人之间比赛格斗会有怎样的精彩？直拳勾拳、踢腿防守、灵活平衡是重要指标，勾勾手、转个身，一套丝滑小连招。击打对抗、战术闪避，机器人选手武功高。 5月25日晚，由中央广播电视总台主办的《CMG世界机器人大赛·系列赛》机甲格斗擂台赛将在浙江杭州举行。本次赛事分为表演赛与竞技赛两大板块。表演赛中，人形机器人将挑战传统体育项目——格斗，通过单机特技、群体对抗等环节，结合灯光与音乐编排，展现其协同控制与动态响应能力。竞技赛则由4支队伍展开实时操控对抗，参赛机器人均搭载国产自主研发技术。机器人选手备赛进行时记者探营赛前训练目前，机器人"选手"们正在紧张有序的备赛中，机器人"选手"要准备哪些复杂的动作？在位于杭州市滨江区的宇树科技赛前训练场，机器人"选手"们正在进行备赛训练。擂台上的这款人形机器人因为每天高强度的训练，身上留下了一些划痕。工作人员告诉记者，这些"皮外伤"并不会影响机器人的比赛表现。《CMG世界机器人大赛·系列赛》机甲格斗擂台赛设备测试员孙宝岩介绍，机器人每一次攻击的时候力道还是比较大的，他们用非常剧烈的方式来测试产品自身的稳定性，对它的骨骼、关键结构件都做了保护，让它即 ...

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

机器之心· 2025-05-24 03:13

选自Nathan Lambert博客机器之心编译作者： Nathan Lambert 本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点，读完会对 GRPO 及其改进算法有更深的理解，进而启发构建推理模型的新思路。随着 DeepSeek R1 的持续爆火，推理和强化学习已经成为 AI 领域的热门词汇。短短几个月的时间，我们已经见证了太多的推理大模型，AI 更新迭代速度似乎已经快进到了以天为单位。但在众多研究成果中找到值得关注的内容并不容易。这有一篇价值非常高的博客，可以帮你梳理最近关于推理模型的研究，重点关注 DeepSeek R1 里用到的 GRPO 及后续的改进算法，非常值得一读。作者是来自 AI2 的 ML 科学家 Nathan Lambert，他博士毕业于 UC 伯克利，曾在 HuggingFace 领导 RLHF 团队。博客地址：https://www.interconnects.ai/p/papers-im-reading-base-model-rl-grpo 文章列举了最近比较火的论文和大模型，包括：此外，作 ...

“最强编码模型”上线，Claude 核心工程师独家爆料：年底可全天候工作，DeepSeek不算前沿

3 6 Ke· 2025-05-23 10:47

| Claude | | Claude | Claude | OpenAl o3 | OpenAl | Gemini 2.5 Pro | | --- | --- | --- | --- | --- | --- | --- | | Opus 4 | | Sonnet 4 | Sonnet 3.7 | | GPT-4.1 | Preview (05-06) | | Agentic coding | 72.5% / | 72.7%/ | 62.3% / | 69.1% | 54.6% | | | SWE-bench Verified15 | 79.4% | 80.2% | 70.3% | | | 63.2% | | Agentic terminal coding | 43.2% / | 35.5% / | 35.2% | 30.2% | 30.3% | 25.3% | | Terminal-bench2.8 | 50.0% | 41.3% | | | | | | Graduate-level reasoning | 79.6% / | 75.4%/ | 78.2% | 83.3% | 66.3% | 83.0% | ...

Artificial Intelligence

Artificial Intelligence

Claude 4

Claude Opus 4

四位图灵奖掌舵：2025智源大会揭示AI进化新路径

机器之心· 2025-05-23 04:17

2006 年，多伦多大学 Geoffrey Hinton 教授等人提出逐层预训练方法，突破了深层神经网络训练的技术瓶颈，为深度学习的复兴奠定了基础。这个初夏四位图灵奖得主强化学习作为智能体与环境交互的学习范式，其核心思想早于深度学习兴起。2013 年 DeepMind 提出的 DQN 已初步实现深度学习与强化学习的结合，而 2016 年 AlphaGo 的成功则将深度学习与强化学习的融合推向公众视野，显著提升了这一交叉领域的关注度。 2025 年 6 月 6-7 日中国，北京与全球创新力量共赴智源大会即刻报名，探寻 AI 时代的无尽边域基础理论在 AI 发展史上，连接主义（以神经网络为代表）与行为主义（以强化学习为代表）虽源自不同理论脉络，但二者的技术交叉早有端倪。这两条主线原本独立成长、各自发展，如今交织融合，万宗归一，共同构成了下一代通用人工智能的基石。 6 月 6 日，关于深度学习和强化学习的探讨，将在 2025 智源大会继续开展，如「双星交汇」般的时空对话，总结过往、共探智能之谜的终极答案。与此同时，推理大模型的兴起、开源生态的加速、具身智能的百花齐放，成为 2025 ...

Artificial Intelligence

深度学习

强化学习

具身智能

Artificial Intelligence

AlphaGo

Artificial Intelligence

深度学习

强化学习

具身智能

Artificial Intelligence

AlphaGo

Previous Next