结构化预处理让DeepSeek准确率提升51%,现已开源丨清华&深言
量子位·2026-01-05 05:00

LingoEDU团队 投稿 量子位 | 公众号 QbitAI 零成本降低大模型幻觉新方法,让DeepSeek准确率提升51%! 方法名为 LingoEDU (简称EDU) ,即基本信息单元 (Elementary Discourse Unit,EDU) 技术。 LingoEDU在大模型正式生成之前装上的一个专门执行「预处理环节」的模型,这一环节主打精准切分,并且为每一个最小信息单元分配唯一 的索引标记,给每一个生成内容打上标号——当需要引用某个信息时,可以精确地指向它的位置。 如此一来,让信息进入主模型进行思考生成前,先完成结构化预处理。 LingoEDU示意:将原文拆分成基本语义单元树后,能方便地在多文档问答、文档总结、DeepSearch等应用场景进行高效地上下文处理 这种「坐标系」让后续的所有操作都可以溯源,模型输出的任何内容都能精确对应到原文的具体位置,将「生成」关进「可追溯」的笼子里。 试想, 如果生成的每句话、每个信息点都能精准地追溯到原文,都能check其正确与否,那么幻觉问题就可以在最大程度上被解决 。 总结来说,其核心是对上下文进行结构化的精准切分,形成富含结构信息和语义信息的篇章结构树—— ...