生成式强化学习

Search documents
生成式强化学习在广告自动出价场景的技术实践
AI前线· 2025-09-28 05:48
来源 | 快手技术 在实时竞价(RTB)广告系统中,广告出价模块作为连接广告主需求与流量匹配的核心枢纽,需要将广告主的营销目标(如转化率、ROI)转化为动态 竞价决策。作为竞价机制的中枢神经,广告出价不仅直接影响广告主的投放效果,也是广告排序分的关键组成模块,进而影响平台侧的流量分配效率。 广告出价的面临的核心挑战可以概括为以下三点: 图 1:实时出价系统示意图 快手的出价算法经历了从 PID、MPC 到强化学习(RL)的三代演进。若将这一过程比喻为汽车工业的发展: 既要花钱,又要省着花:广告主既需控制单日花费不超预算,又需尽可能降低每次转化(如购买、下载等)的成本。 未来难以预测:系统无法预知即将到来的流量状况和竞争对手行为,必须依据实时花费与成本等数据动态调整出价。 牵一发而动全身:每次出价会影响广告展示与消耗,改变账户状态(如剩余预算),进而影响后续出价,构成连续而复杂的序列决策问题。 第一代(PID) :类似于定速巡航。它只能根据当前速度和设定速度的差异来调整油门,反应直接但比较"笨",难以应对复杂多变的竞价环境。 第二代(MPC) :类似于更高级的适应巡航。通过预测未来短时间内的路况以调整车速,但其 ...
快手解密「AI印钞机」,首提生成式强化学习出价技术,为平台实现超过3%的广告收入提升
机器之心· 2025-09-23 04:08
机器之心报道 编辑:Panda、张倩 前段时间,谷歌母公司 Alphabet 市值突破 3 万亿美元,成为第四家市值达到这一门槛的公司。 如果时间倒回到两年半以前,谷歌自己可能都没有想到这一结果。当时,ChatGPT 带来的冲击让外界开始质疑谷歌能否守住营收,尤其是广告营收。甚至还有人 发出灵魂追问:谷歌会成为下一个诺基亚吗? 然而,事实的发展出乎许多人意料 —— 谷歌不仅稳住了广告基本盘,还通过将生成式 AI 融入搜索和广告投放,提升了用户意图理解和广告匹配效率,让广告价 值进一步放大。 在国内,我们也看到了这种趋势。上个月,快手发布了 Q2 财报。财报显示,这一季度, 快手线上营销服务收入 198 亿元,同比增长 12.8% 。财报明确指出,大 模型在投放出价、营销推荐方面的应用取得显著进展。在营销出价方面,快手优化了生成式出价算法,运用强化学习和长期价值策略,提升了广告转化效果。在 营销推荐环节,快手利用大语言模型的内容理解和推理能力,采用生成式方法筛选广告,深入挖掘用户行为与广告转化的关联性,生成符合用户兴趣的广告内 容,经过排序优化后显著提高点击率,推动营销服务收入实现两位数增长。 这些信号表明,A ...