语料运营公共服务统一门户

Search documents
互联网数据“耗尽”后,高质量训练数据从哪里获得?专家热议
Nan Fang Du Shi Bao· 2025-07-29 01:53
7月28日,2025世界人工智能大会暨人工智能全球治理高级别会议在上海举行。在"大模型治理和有序发 展生态分论坛"上,多位专家围绕大模型时代的数据治理与伦理建设,共商人工智能健康发展路径。有 专家指出,互联网数据将在2026年左右被大模型训练"耗尽"已成行业共识,要建设新的高质量数据集, 应从垂直行业获取、通过"众包众创"方式与前沿学校学者开展合作等实现。 论坛现场 对未处理的初级数据,比如语音、图像、文本、视频等进行加工处理,进而转换为机器可识别信息的过 程,通常被称为数据标注。近年来,随着人工智能技术发展,数据标注成为大模型训练的必要环节,其 上游产业需求大量增加。 他强调,合成数据通常存在缺陷、误差、歧视等问题。原因在于合成数据也是基于现有数据生成或是受 到现有数据的影响。"如果算法有偏见的话,它可能会带来更大的数据偏见,导致'Garbage in garbage out'。"另一方面,合成数据存在伦理、公平性和隐私泄露的风险。"通过合成数据的'逆向工程',能够 猜到原本数据中包含的一些个人隐私。" 施佳樑也表示,如今行业内已基本达成共识,无论国内国外,2026年左右互联网数据即将被大模型训练 耗尽。那 ...