Workflow
让LLM不再话痨,快手HiPO框架来了

如今, 快手 KwaiKAT 团队与南京大学刘佳恒老师 NJU-LINK 实验室 、张煜群教授实验室 ARiSE 合作重磅推出 HiPO(Hybrid Policy Optimization)框架,为 LLM 装上了智能的「思考开关」。 该框架通过创新的混合数据冷启动与混合强化学习奖励系统,使模型能够自主、动态地决策何时该启动详细推理(Think- on),何时该直接给出答案(Think-off)。 当用户向大语言模型提出一个简单问题,比如「单词 HiPPO 里有几个字母 P?」,它却正襟危坐,开始生成一段冗长的推理链:「首先,让我们分析 HiPPO 这个 词,河马的英文单词为 hippo,河马是一种半水生哺乳动物,这里用户用了大写字母,可能有特殊的含义,对于单词 HiPPO,我们可以将其拆分为 H-i-P-P-O,字 母 P 出现在第 3 与第 4 个位置,因此有 2 个字母 P... 让我们简化问题,HiPO 可以拆分为...」 面对这样的「严谨」,用户难免哭笑不得,既浪费了计算资源,也增加了等待时间,甚至更坏的情况是模型被自己冗长的推理链「绕晕了过去」,最终给出了错 误的答案,用户只得捶胸顿足地大喊:「 ...