Workflow
大模型预训练数据精炼
icon
Search documents
手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里
量子位· 2025-07-21 04:23
RefineX团队 投稿 量子位 | 公众号 QbitAI 在噪声污染严重影响预训练数据的质量时,如何能够高效且精细地精炼数据? 中科院计算所与阿里Qwen等团队联合提出 RefineX ,一个通过程序化编辑任务实现大规模、精准预训练数据精炼的新框架。 其核心优势在于: 将专家指导的高质量端到端优化结果,蒸馏为极简的基于编辑操作的删除程序 。 通过这一高精度蒸馏流程,可以训练出高效可靠的优化模型(refine model),系统地优化语料中的每个实例。 在高效精炼数据的同时,可靠地保留原始文本的多样性和自然性。 用RefineX净化后的20B token数据训练750M模型时,其在常识推理、科学问答等10项任务的平均得分达到44.7,较原始数据提升 7.2% 。 大模型的预训练数据 预训练数据的质量直接决定了模型的知识深度与推理能力上限。 当互联网成为海量训练数据的来源,噪声污染也随之而来——植入的广告、破碎的HTML标签、无意义的乱码等,不仅降低数据效用,更可能 引发模型幻觉。 然而,大规模的去除这些噪声来提升预训练数据的质量是十分困难的,因为同时要兼顾两个要素: 传统数据精炼方案主要集中于 规则过滤 和 ...