RL4HS

Search documents
最近高产的苹果!RL4HS:精准定位LLM幻觉,超越GPT-5及o3!
自动驾驶之心· 2025-10-09 07:30
原文链接: 苹果再发论文:精准定位LLM幻觉,GPT-5、o3都办不到 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 苹果这几天真是进入了论文高产期,时不时就有新的研究发布出来。 就在近日,苹果又发布了一篇引发学界与业界关注的重磅论文。 这篇论文非常有意思,它用强化学习训练模型,让模型能够准确标出答案中哪些部分是幻觉(hallucinated)。 其核心突破在于:模型不再只是笼统地提示有错误,而是能直接指出具体哪一段文字是错误的。这对于需要修改输出或进行事实审查的用户来说,大大节省了时 间。 论文提出的方法名为 RL4HS,它使用了片段级奖励(span-level rewards)和类别感知的 GRPO(Class-Aware Group Relative Policy Optimization),从而避免模型偷 懒、只输出无错误预测。 该方法在片段级幻觉检测任务上,甚至超过了 GPT-5 和 o3。 总体而言,片段级奖励 + 类别平衡机制让 ...
苹果再发论文:精准定位LLM幻觉,GPT-5、o3都办不到
机器之心· 2025-10-06 04:00
机器之心报道 机器之心编辑部 苹果这几天真是进入了论文高产期,时不时就有新的研究发布出来。 就在近日,苹果又发布了一篇引发学界与业界关注的重磅论文。 这篇论文非常有意思,它用强化学习训练模型,让模型能够准确标出答案中哪些部分是幻觉(hallucinated)。 其核心突破在于:模型不再只是笼统地提示有错误,而是能直接指出具体哪一段文字是错误的。这对于需要修改输出或进行事实审查的用户来说,大大节省了时 间。 论文提出的方法名为 RL4HS,它使用了片段级奖励(span-level rewards)和类别感知的 GRPO(Class-Aware Group Relative Policy Optimization),从而避免模型偷 懒、只输出无错误预测。 该方法在片段级幻觉检测任务上,甚至超过了 GPT-5 和 o3。 总体而言,片段级奖励 + 类别平衡机制让模型真正学会了核查依据并精确指出错误内容,这是让大语言模型更可靠、更可审计的重要一步。 来源: https://x.com/rohanpaul_ai/status/1974652007068967315 接下来我们看看论文内容。 论文摘要部分,作者表示大语言 ...