智源研究院发布中英文高质量数据集CCI4.0,推动全球人工智能开源创新
AI科技大本营·2025-05-07 14:02
CCI 4.0-M2 V1(Multilingual-2,中英双语言)包含 CCI4.0-M2-Base V1、CCI4.0-M2-CoT V1和CCI4.0-M2-Extra V1共3个数据集。其中,CCI4.0- M2-Base V1数据量为35000GB,为中英双语,中文数据5000GB,与CCI3.0相比数据规模增加了5倍。CCI4.0-M2-CoT V1 包含了用于提升推理能力的 4.5亿条逆向合成人类思考轨迹数据,总token数量达425B(4250亿),与现有全球最大的已开源的合成数据集Cosmopedia(由Hugging Face开源) 相比,规模提升了近20倍。 2025年5月6日,在法国巴黎举办的全球开源创新论坛(GOSIM,Global Open-Source Innovation Meetup)上,智源研究院正式发布中文互联网语 料库CCI 4.0(Chinese Corpora Internet,简称 CCI),并同步在智源DataHub、魔搭社区、Huggingface等平台进行逐步开源。 CCI 4.0下载地址: (二)数据来源 CCI4.0的原始数据包括Nemotron-CC ...