中文词表污染

Search documents
ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术
机器之心· 2025-08-25 23:38
本文第一作者是清华大学博士生张清杰,研究方向是大语言模型异常行为和可解释性;本文通讯作者是清华大学邱寒副教授; 其他作者来自清华大学、南洋理工 大学和蚂蚁集团 。 如果我们的教科书里包含大量的污言秽语,那么我们能学好语言吗?这种荒唐的问题却出现在最先进 ChatGPT 系列模型的学习过程中。 来自清华大学、南洋理工大学和蚂蚁集团的研究人员发现, GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6%,甚至同时包含「波*野结衣」、「 * 野结 衣」、「 * 野结」、「 * 野」、「大发时时彩」、「大发快三」、「大发」等色情、赌博相关词元 (如下图所示)。 研究团队对 OpenAI 近期发布的 GPT-5 和 GPT-oss 的词表也进行了分析,它们词表的中文 token 没有变化。 图 1 : GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6% ,主要涉及色情、赌博。 研究团队认为,这种现象是由于来自互联网数据的大模型预训练语料库不可避免地包含污染内容,导致在此之上构建的大语言模型(LLM)词表包含污染词。那 么,这些污染词会如何影响 LL ...