最近高产的苹果！RL4HS：精准定位LLM幻觉，超越GPT-5及o3！

原文链接：苹果再发论文：精准定位LLM幻觉，GPT-5、o3都办不到点击下方卡片，关注" 大模型之心Tech "公众号戳我-> 领取大模型巨卷干货本文只做学术分享，如有侵权，联系删文，自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询苹果这几天真是进入了论文高产期，时不时就有新的研究发布出来。就在近日，苹果又发布了一篇引发学界与业界关注的重磅论文。这篇论文非常有意思，它用强化学习训练模型，让模型能够准确标出答案中哪些部分是幻觉（hallucinated）。其核心突破在于：模型不再只是笼统地提示有错误，而是能直接指出具体哪一段文字是错误的。这对于需要修改输出或进行事实审查的用户来说，大大节省了时间。论文提出的方法名为 RL4HS，它使用了片段级奖励（span-level rewards）和类别感知的 GRPO（Class-Aware Group Relative Policy Optimization），从而避免模型偷懒、只输出无错误预测。该方法在片段级幻觉检测任务上，甚至超过了 GPT-5 和 o3。总体而言，片段级奖励 + 类别平衡机制让 ...