Workflow
GEM广告模型
icon
Search documents
Meta详细阐述基于LLM级训练、混合并行计算与知识迁移的GEM广告模型
AI前线· 2025-12-28 05:33
作者 | Vinod Goje 译者 | 平川 Meta发布 了有关其生成式广告模型(GEM)的详细信息,这是一个旨在改善其平台广告推荐能力的基础模型。该模型处理每 天数十亿的用户 - 广告交互数据,解决了推荐系统(RecSys)中的核心挑战——有意义的信号(如点击和转化)非常稀疏。 GEM 致力于解决从多样化广告数据中学习的复杂性,包括广告商目标、创意格式、测量信号以及跨多个投放渠道的用户行 为。 该公司使用三种方法构建了这个系统:基于先进架构的模型缩放技术、用于知识迁移的后训练技术,以及增强型训练基础设施 ——该基础设施利用数千块 GPU 实现高级并行计算,以满足大规模基础模型训练的计算需求。 图片来源: GEM 架构 Meta 对训练架构进行了重新设计,使其能够以媲美现代大型语言模型的规模支持 GEM。该公司针对不同模型组件采用了定制 化的多维并行策略:密集型模型组件采用混合分片分布式并行(HSDP)技术,在数千块 GPU 间优化内存使用并降低通信开 销;稀疏型组件(主要为用户和物品特征的大型嵌入表)则采用 结合数据并行与模型并行的二维并行方案。 为了减少训练瓶颈,Meta 实施了几项 GPU 级别的优 ...