字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题
量子位·2025-06-18 07:49
SeqPO-SiMT团队 投稿 量子位 | 公众号 QbitAI 这个决策过程可以被形式化地表示为: 该框架的一个关键灵活性在于,如果模型决定等待更多上下文,输出的 可以为空,其长度完全由策略模型 自行决定。 AI字幕总是慢半拍,质量和延迟难以平衡是业界老问题了。 为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框 架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT )。 在70亿参数(7B)规模上实现SOTA。 实验结果显示,SeqPO-SiMT的翻译质量不仅优于监督微调(SFT)的离线模型及LLaMA-3-8B,其表现甚至能 媲美乃至超越Qwen-2.5-7B的离线翻译水平。 方法:SeqPO-SiMT序贯策略优化 针对以上难点,研究团队提出SeqPO-SiMT框架。其核心思想是将同声传译任务建模为一个序贯决策问题,综合 评估整个翻译流程的翻译质量和延迟,并对整个决策序贯进行端到端的优化。 该方法的主要特点是: 它不再孤立地评估每一步决策的好坏 ...