给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026
HVO-GRPO团队 投稿 量子位 | 公众号 QbitAI 文本摘要作为自然语言处理 (NLP) 的核心任务,其质量评估通常需要兼顾 一 致性 (Consistency) 、连贯性 (Coherence) 、流畅 性 (Fluency) 和相关性 (Relevance) 等多个维度。 然而,在实际优化过程中,开发者往往面临"拆东墙补西墙"的窘境:提升了相关性,一致性可能随之下降。如何让模型在多个目标之间达成完 美的"帕累托最优" (Pareto optimal) ? 近日,Li Auto团队一项被 ICASSP 2026 接收的研究提出了 HyperVolume Optimization (HVO) 。这是一种全新的多目标强化学习 (MORL) 策略,它基于GRPO框架,无需SFT或冷启动,就能让7B参数的模型在摘要任务上展现出媲美GPT-4的性能,且生成内容更加简 洁。 △ HVO性能对比雷达图 研究背景 核心痛点:多目标优化的"不平衡" 文本摘要生成是自然语言处理 (NLP) 中的一项核心且具有挑战性的任务。为了全面评估生成摘要的质量,研究人员通常会考察多个维度, 例如连贯性、一致性、流畅性和相关性。然 ...