星辰系列大模型

Search documents
超10万亿Tokens的高质量数据集是怎么炼成的?专访中国电信天翼AI阮宜龙
量子位· 2025-09-26 02:08
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 正所谓 "得数据者得天下" ,这家央企算是把 高质量数据集 给玩明白了—— 超过 10万亿 tokens的通用大模型语料数据,以及覆盖 14个 关键行业的专业数据集,总存储量高达 350TB! 如此庞大的体量,还不是杂乱无章的原始数据,而是经过精心标注和优化且包含多模态在内的行业数据,是随时可以在行业里"上岗"的那 种。 或许有小伙伴就要问了,这很重要吗?答案是非常确定的。 高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。建设高质量数据集 至关重要,因为它直接决定了AI模型的准确性、泛化性和可用性——优质数据是训练出高效准确模型的基础。 重要程度,可见一斑了。 那么这家央企到底是谁? 不卖关子,它正是AI国家队—— 中国电信天翼AI ,其打造的 星辰MaaS平台 是建设高质量数据集的关键。 星辰MaaS平台像是一个数据精炼厂,通过四大核心协同运作,构建"数据—模型—服务"的完整闭环。 其中, 基模 作为"动力引擎",提供基础认知与推理能力; 数据工具链 作为"原料库",持续输送高质量的数据资源; 模 ...