强化学习 - filings, earnings calls, financial reports, news - Reportify

强化学习

Search documents

加州大学伯克利Dr. Allen Yang：物理AI的分水岭时刻尚未到来｜CES 2026

Tai Mei Ti A P P· 2026-01-10 14:33

当前，人工智能行业正深陷 "GPU 竞赛" 的热潮，在2026年CES（国际消费电子展）现场随处可见对云端 AI 应用的热议，"人均GPU 数量" 成为衡量技术实力的热门指标，从企业到国家层面都在追逐算力的堆砌。美西时间1月6日-8日，钛媒体CES 2026「Talk to the World」系列论坛在拉斯维加斯举办。会上，加州大学伯克利分校Vive 增强现实中心创始执行主任Dr. Allen Yang提出了一个清醒而关键的观点：我们应超越云端，将目光投向物理世界，探寻物理 AI 的下一个 "AlphaGo时刻"。作为伯克利 Vive 增强现实中心创始执行主任，Dr. Allen Yang主导着 AR/VR、元宇宙及赛车自动驾驶三大创新方向。过去四年，他带领伯克利 AI 赛车队连续征战 CES 自动驾驶挑战赛，并在 2025 年斩获头对头超车项目冠军。这些扎根物理场景的实践让他深刻意识到，物理 AI 与依赖云端数据的大型语言模型有着本质区别，其真正的 "分水岭时刻" 尚未到来。他指出，虽然以AlphaGo和大型语言模型为代表的AI已取得里程碑式突破，但物理AI仍亟待属于自己的"分水岭时 ...

大型语言模型

大型语言模型

姚顺雨林俊旸杨植麟齐聚，锐评大模型创业与下一代技术范式

第一财经· 2026-01-10 14:21

2026.01. 10 本文字数：1458，阅读时长大约2分钟因此，姚顺雨认为，自主学习这件事已经发生了，只是受效率等因素限制，还存在各种问题，他认为目前自主学习的范式迭代更像是渐变，而非突变。至于目前全球市场中哪一家企业最可能率先引领范式创新，姚顺雨表示，虽然OpenAI经历了商业化等各种变化，创新基因被削弱，但仍是最有可能诞生新范式的地方。林俊旸认为，目前的RL（强化学习）范式尚处早期，潜力远未被充分挖掘，全球范围内仍面临诸多共性挑战，而下一代范式的核心在于"自主进化"与"主动性"。只是自主进化是否需要更新参数，见仁见智。作者 | 第一财经吕倩当大模型陷入Scaling Law（缩放定律）的增长瓶颈，下一代技术范式将会是什么？ 1月10日，在由清华大学基础模型北京市重点实验室、智谱AI发起的AGI-Next前沿峰会上，腾讯控股"CEO/总裁办公室"首席AI科学家姚顺雨、阿里巴巴Qwen技术负责人林俊旸、Kimi创始人杨植麟、智谱创始人唐杰等人工智能行业人士齐聚，共话大模型下一代技术范式。对下一代范式的猜测中，自主学习（Autonomous Learning）是个热门概念，是大模型摆 ...

大模型下一代技术范式

Artificial Intelligence

大模型下一代技术范式

Artificial Intelligence

姚顺雨林俊旸杨植麟齐聚锐评大模型创业与下一代技术范式

Di Yi Cai Jing· 2026-01-10 14:06

Core Insights - The next generation of AI technology paradigms is expected to focus on Autonomous Learning, which allows models to evolve independently without heavy reliance on human-annotated data and offline pre-training [1][2] - The potential for innovation in AI is seen as high in China, with the ability to quickly replicate and improve upon discoveries, contingent on breakthroughs in key technologies like lithography machines [3] Group 1: Next Generation Paradigms - Autonomous Learning is a trending concept that enables models to generate learning signals and optimize through closed-loop iterations, leading to continuous evolution [1] - The definition and understanding of Autonomous Learning vary among experts, emphasizing its dependence on specific data and task contexts [1] - Current advancements in AI, such as Claude's ability to self-improve by transforming 95% of its own code, indicate that self-learning is already occurring, albeit with efficiency limitations [1] Group 2: Market Leaders and Innovations - OpenAI is viewed as the most likely candidate to lead the next paradigm shift in AI, despite facing challenges in maintaining its innovative edge [2] - The current Reinforcement Learning (RL) paradigm is still in its early stages, with significant potential yet to be realized, focusing on "autonomous evolution" and "proactivity" [2] - The introduction of proactivity in AI raises new safety concerns, necessitating the instillation of appropriate values and constraints [2] Group 3: China's Position in AI - The probability of Chinese teams leading in AI innovation in the next three to five years is considered high, given their ability to quickly replicate and enhance discoveries [3] - Key challenges for China include production capacity and software ecosystem development, alongside the need for a more mature B2B market [3] - Cultural and economic factors may hinder the willingness to pursue groundbreaking innovations in China [3]

Venture(US:VEMLY)

Artificial Intelligence

Artificial Intelligence

智能体「卷王」诞生！干活自动配结项报告，1.5张截图就把事说清了

量子位· 2026-01-10 03:07

Youtu-Agent 团队投稿量子位 | 公众号 QbitAI 在学校里做实验的时候，老师如何确定我们做了实验并且达到了预期效果呢？——最常见的做法是让学生写一份实验报告交上来。现在，AI智能体拿到一个任务以后如何检验执行的效果有没有达到预期呢？我们也可以让AI在执行任务的同时主动提交一份证据链报告，边做边收集任务完成的证据，自我检查是否符合预期，不符合就继续做。在LLM/VLM驱动的智能体（Agent）的强化学习（RL）研究中，一直面临一个巨大的挑战：你交给智能体一个任务，它干完了，但你不知道完成度如何。为了确认它是否真的准确完成了任务，我们不得不建立庞大的 "监督系统" 来复核它的每一步操作。这种 "被动验证" 往往需要： 1. 手工设计的复杂校验机制（比如：完全匹配的输出内容）； 2. 强大的轨迹级验证方法（比如：LLM/VLM-as-a-Judge众投决策）。这两种常见的先完成任务（task completion）再校验轨迹（outcome verification）的机制有以下缺点： 3. 依赖持续可观测环境的反馈信息，部分操作往往因为环境变化（如页面刷 ...

自证智能体

自证智能体

斯坦福最新的全身运控方案，跨地形泛化！

具身智能之心· 2026-01-09 00:55

编辑丨具身智能之心点击下方卡片，关注" 具身智能之心 "公众号作者丨 Haochen Shi等本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。研究背景与核心挑战类人机器人传统移动方法多聚焦于腿部步态，但自然双足动物（包括人类）在复杂环境中会主动利用手、膝盖、肘部等肢体建立额外接触点，以获得更强的稳定性和支撑力。在低间隙椅子下方、及膝高度的墙壁/平台、陡峭楼梯等场景中，仅依赖脚部的移动要么不可行，要么需要剧烈动作，而全身协同的爬行、攀爬等策略能更高效地克服障碍。当前类人机器人全身移动面临两大核心挑战：为应对这些挑战，斯坦福大学研究团队提出一套融合物理接地关键帧动画与强化学习的分层框架，通过九种核心运动技能的链结（figure1），实现机器人在极端复杂地形中的稳定移动。核心方法系统的核心架构包含四大组件，形成"关键帧生成→策略训练→技能选择→分层执行"的完整闭环（figure2）。 1. 复杂环境导航需解决"接触丰富"的运动规划与鲁棒控制 ...

关键帧动画

类人机器人

关键帧动画

类人机器人

亲身体验后，我们总结了全网首份AI语音输入法红黑榜｜锦秋AI实验室

锦秋集· 2026-01-08 14:57

「锦秋AI实验室」而谁还停留在"懂了点，又好像没懂透，反正先瞎操作一波"的阶段？这是一档专注于探索和评测AI产品在实际场景中应用效果的栏目。我们正在用AI 解锁100个效率场景。下一个场景会是什么？以前以为"语音输入"只是给懒人用的：张嘴说两句，手机替你打字。直到真的开始用它写长文、回微信、记灵感、开会做纪要——才发现，语音输入法的核心根本不是"省事"，而是：它到底能不能把我说的"人话"，变成能能让信息接收者听懂的 "人话"。我们也被这些"转写翻车"折磨过。所以这次我们决定认真测一测： 7 款 AI语音输入法，5个真实场景，统一题库，一轮一轮地比。我们想知道：在语音输入这件事上，谁真的听懂了"帮我把我说的话打出来"？ * 需要说明的是，我们此系列的测评以年轻普通用户的实用视角和审美进行测评，于 AI 产品持有相对积极的评价态度。这里也插播一下未来的测评预告：近期我们还将会进行 AI 小游戏制作、 AI 知识库、 AI 画布、 AI 陪伴类产品的测评。如果你对这些 AI 产品方向的测评感兴趣，也欢迎私信或者评论区告诉锦秋基金（微信公号：锦秋集；微信 ID ： jqcapita ...

豆包输入法

AI语音输入法

豆包输入法

AI语音输入法

当我们把端到端量产需要的能力展开后......

自动驾驶之心· 2026-01-08 09:07

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线如果说现在自驾行业哪个职位最受欢迎，一定是端到端。地平线HSD的成功，让业内开始重新审视一段式端到端的重要性。智能驾驶不再重度依赖模块化感知和强规则兜底，而是直接感知环境，并生成动作序列。端到端的能力极大地降低了系统复杂度，使自动驾驶车辆能够应对更加复杂的驾驶场景。然而，在实际的落地应用中。只靠模仿学习是不够的，系统仍然面临轨迹不稳定等问题。其核心原因在于模型缺乏基于环境反馈的持续修正能力。强化学习为端到端带来了新的解决思路。RL并不是一门新的学科，但RL的优势为端到端提供了从"模仿"走向"优化"的关键机制。通过引入奖励或价值信号，RL可以在保持端到端能力的同时，对动作策略进行闭环优化，弥补模仿学习在分布外状态和误差累积上的不足。纯模仿学习的端到端，本质是在"复制数据分布"。RL提供的是闭环优化能力：用环境反馈修正动作，用value/reward信号约束轨迹行为。目前工业界头部的公司已经形成了一套完整的模型迭代思路，模仿学习训练→闭环强化学习→规则兜底（时空联合规划），此外还是涉及导航信息 ...

端到端自动驾驶

端到端自动驾驶技术

强化学习（RL）算法

端到端自动驾驶

端到端自动驾驶技术

强化学习（RL）算法

随到随学！端到端与VLA自动驾驶小班课（视频+答疑）

自动驾驶之心· 2026-01-08 05:58

Jason, C9本科+QS50 PhD，已发表CCF-A论文2篇，CCF-B论文若干。现任国内TOP主机厂算法专家，目前从事端到端、大模型、世界模型等前沿算法的预研和量产，并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付，拥有丰富的端到端算法研发和实战经验。这门课程讲如何展开第一章：端到端算法介绍点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线端到端与VLA涉及的核心内容包括BEV感知、视觉语言模型VLM、扩散模型、强化学习等等。通过学习端到端与VLA自动驾驶，可以掌握学术界和工业界最前沿的技术栈。为此我们联合工业界大佬开展了这门《端到端与VLA自动驾驶小班课》正式结课啦，随到随学（视频+答疑）！课程包含二段式端到端与一段式端到端前沿算法的细致讲解，基本上都是工业界和学术界的Baseline。扫码报名！抢占课程名额讲师介绍第一章主要是针对端到端自动驾驶概括性的内容讲解，这一章老师会带大家盘一下端到端的发展历史，端到端这个概念是怎么来了，为什么从模块化的方法发展到端到端。一段式、二段式再到现在的VLA范式，每一种范式都有哪 ...

端到端自动驾驶

视觉语言模型VLM

端到端自动驾驶

视觉语言模型VLM

人工智能测评初创企业LMArena新一轮融资后估值达17亿美元

Xin Lang Cai Jing· 2026-01-07 09:30

公司首席执行官兼联合创始人阿纳斯塔西奥斯・安杰洛普洛斯表示："头部人工智能实验室选择与我们合作，是因为他们很难自行判断旗下模型的优劣水平。" 不过，部分模型开发商对 LMArena 的测评方式提出了质疑。他们认为，依靠无偿互联网用户提供反馈的模式存在缺陷，不仅容易被人为操纵，而且结果也无法反映行业专家的专业意见。与之形成对比的是，LMArena 的竞争对手 —— 例如数据标注初创企业 Scale AI—— 会聘请律师、教授等专业人士对模型进行评估打分。针对外界的质疑，LMArena 回应称，普通用户在评判与自身相关的问题答案时，往往具备更精准的判断力，而且不向专家支付报酬的模式，能够让平台获取更真实客观的反馈。 LMArena 联合创始人阿纳斯塔西奥斯・安杰洛普洛斯据 LMArena 公司透露，这家凭借人工智能模型性能排名体系广受行业认可的初创企业，在新一轮融资中筹集到 1.5 亿美元资金，投后估值（含本次融资额）达到 17 亿美元。这一估值较 2025 年 5 月披露的种子轮融资估值增长了近两倍。本轮融资由现有投资方菲利斯资本以及加州大学投资部门联合领投。所筹资金将用于两方面：一是为公 ...

人工智能模型性能排名体系

人工智能模型性能排名体系

8块钱跑通一次强化学习全流程，潞晨云重塑微调赛道：1名算法工程师=1支Infra团队

量子位· 2026-01-07 05:17

允中发自凹非寺量子位 | 公众号 QbitAI 大模型下半场的战火，已经从"暴力预训练"烧向了"后训练"战场。潞晨云微调SDK 正式开放上线——这是国内首个全面开放、且兼容Tinker范式的Serverless微调平台。其基于Thinking Machine Lab开源的Tinker SDK构建，核心目标只有一个：为复杂且昂贵的强化学习，提供一套更具成本优势的工业级解法。拥抱后训练与RL：算法层与底层算力架构的解耦随着OpenAI o1在推理能力上的突破，业界逐渐形成共识—— 无论是OpenAI o1的推理突破，还是DeepSeek-R1靠强化学习（RL）实现的性能飞跃，都释放了一个明确信号：决定模型天花板的，不再只是算力堆砌，而是更精准的微调和RL迭代。但现实很骨感——复杂的分布式基建、高昂的显卡租金、繁琐的架构调优，像一道道高墙，把无数算法工程师挡在了"炼丹房"外。现在，这堵墙正在被推倒。即大模型的能力突破已不再单纯依赖预训练（Pre-training）阶段的参数堆砌，后训练（Post-Training）特别是强化学习，正成为决定模型实用价值的核心战场。以De ...

大模型后训练

潞晨云微调SDK

大模型后训练

潞晨云微调SDK