Workflow
全新预训练数据筛选方案,让数据效率提升10倍!配置仅需fastText评分器|港科大vivo出品
量子位·2025-05-15 04:26

PreSelect团队 投稿 量子位 | 公众号 QbitAI vivo自研大模型用的数据筛选方法,公开了。 香港科技大学和vivo AI Lab联名提出 PreSelect ,目前已被ICML 2025接收。 这是一种轻量级且高效的数据选择方法:只需要训练和部署一个基于fastText的评分器,就可以减少10倍的计算需求。 该方法提出数据的 预测强度 (Predictive Strength) 的概念和计算公式,利用在不同模型上Loss有序性表征数据对特定能力的贡献,通过获 取特定能力的有效样本训练fastText分类器对全量训练数据进行筛选。 △ 论文标题:Predictive Data Selection: The Data That Predicts Is the Data That Teaches PreSelect:更客观、更轻量 现有的数据筛选方法主要分为两类:基于规则的筛选和基于模型的筛选。 基于规则的筛选依赖人工构建的先验规则,如C4 pipeline、Gopher rules,以及RefinedWeb和FineWeb的数据筛选流程。此类方法虽然实 现简单,但容易受到人工经验的限制,存在泛化 ...