Workflow
中文互联网的色情赌博信息,怎么“污染”AI
虎嗅APP·2025-09-10 13:44

以下文章来源于APPSO ,作者发现明日产品的 号称"赛博白月光"的GPT-4o,在它的知识体系里,对日本女优"波多野结衣"的熟悉程度,竟然比中 文日常问候语"您好"还要高出2.6倍。 是不是瞬间就下头了? 这可不是我瞎编的。一篇来自清华、蚂蚁和南洋理工的最新研究直接揭了老底:我们天天在用的大语 言模型,有一个算一个,都存在不同程度的数据污染。 论文:从模型Token列表推测大语言模型的中文训 练数据污染(https://arxiv.org/abs/2508.17771) 论文中把这些污染数据定义为"污染中文词元" (Polluted Chinese Tokens,简称PoC Tokens) 。它 们大多指向色情、网络赌博等灰色地带,像病毒一样寄生在AI的词汇库深处。 这些中文污染词元的存在,不仅对AI来说是一种隐患,更是直接影响到我们的日常体验,被迫接受 AI各种各样的胡言乱语。 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 本文来自微信公众号: APPSO (ID:appsolution) ,作者:发现明日产品的,原文标题:《 ...