RL

Search documents
X @Sam Altman
Sam Altman· 2025-08-11 23:05
Performance Improvement - Performance improved from the 49th to the 98th percentile in IOI in one year [1] - The improvement was achieved without training any specialized models [1] - The same Reinforcement Learning (RL) was used as for everything else [1]
Diffusion/VAE/RL 数学原理
自动驾驶之心· 2025-07-29 00:52
Core Viewpoint - The article discusses the principles and applications of Diffusion Models and Variational Autoencoders (VAE) in the context of machine learning, particularly focusing on their mathematical foundations and training methodologies. Group 1: Diffusion Models - The training objective of the network is to fit the mean and variance of two Gaussian distributions during the denoising process [7] - The KL divergence term is crucial for fitting the theoretical values and the network's predicted values in the denoising process [9] - The process of transforming the uncertain variable \(x_0\) into the uncertain noise \(\epsilon\) is iteratively predicted [15] Group 2: Variational Autoencoders (VAE) - VAE assumes that the latent distribution follows a Gaussian distribution, which is essential for its generative capabilities [19] - The training of VAE is transformed into a combination of reconstruction loss and KL divergence constraint loss to prevent the latent space from degenerating into a sharp distribution [26] - Minimizing the KL loss corresponds to maximizing the Evidence Lower Bound (ELBO) [27] Group 3: Reinforcement Learning (RL) - The Markov Decision Process (MDP) framework is utilized, which includes states and actions in a sequential manner [35] - The semantic representation aims to approach a pulse distribution, while the generated representation is expected to follow a Gaussian distribution [36] - Policy gradient methods are employed to enable the network to learn the optimal action given a state [42]
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-08 04:51
本期内容是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈。 张祥雨专注于多模态领域,他提出了 DreamLLM 多模态大模型框架,这是业内最早的图文生成理解 一体化的多模态大模型架构之一,基于这个框架,阶跃星辰发布了中国首个千亿参数原生多模态大 模型 Step-1V。此外,他的学术影响力相当突出,论文总引用量已经超过了 37 万次。 一直以来,业界都相当期待一个理解、生成一体化的多模态,但直到今天这个模型还没出现,如何 才能达到多模态领域的 GPT-4 时刻?这一期对谈中,祥雨结合自己在多模态领域的研究和实践历 程,从纯粹的技术视角下分享了自己对多模态领域关键问题的全新思考,在他看来,虽然语言模型 领域的进步极快,但多模态生成和理解的难度被低估了: • 接下来 2-3 年,多模态领域会有两个 GPT-4 时刻:多模态推理和自主学习; • o1 范式的技术本质在于激发出 Meta CoT 思维链:允许模型在关键节点反悔、重试、选择不同分 支,使推理过程从单线变为图状结构。 目录 01 研究主线: 重新回归大模型 • 多模态生成理解一体化难以实现的原因在于,语言对视觉的控制能力弱,图文对齐不精确, ...
Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent | 42章经
42章经· 2025-04-27 14:10
23 年 4 月以 AutoGPT 为代表的那一波里,Agent 更像是一个玩具,demo 都很炫,但实际应用价值很有限。 经过两年的发展,这波 Agent 确实能够在实际的工作和生活场景中解决问题,为大家带来价值了。 曲凯: Agent 是当下绝对的风口。关于 Agent 这个话题,我自己有一些核心在思考的问题,相信也是很多人同样会有疑问的地方。所以今天我们请来了长时间对 Agent 有研究和实操的文锋,想就这些问题展开一些讨论。 首先我想问,到底怎么定义 Agent? 文锋: 我认为最好的就是 Anthropic 的定义:Agent 是让模型基于环境反馈去使用工具的一个程序。 曲凯: 那你怎么看最近这波 Agent 热? 文锋: 这波 Agent 跟过去非常不一样。 之所以会有这种跃迁,一是因为底层模型能力有了很大的进步,尤其是在结合了 RL 之后,以 o1 为代表的模型还赋予了 Agent 长思维能力。 二是因为 Agent 的工程侧和产品侧也有很大的突破,主要表现就是大家更知道该怎么给 Agent 构建一个合适的 Context,从而更好地解决问题了。 曲凯: 怎么理解这个 Context? 文锋: ...