打破「数据暴力」预训练惯性,阿里Qwen、上交大等提出预训练动态数据选择范式OPUS
机器之心·2026-03-16 08:34

在 "大模型预训练" 这件事上,行业里几乎有一条默认信条: 想要更强,就得喂更多、更 新、更高 质量的数据 。但最近一篇 来自阿里巴巴、上海交大、UW– Madison 等团队 的工作,在 Hugging Face Daily Paper 冲上月度 Top1 后,直接把这个共识撕开了一道口子: 只从中低质量数据里动态挑选,竟然能打赢 "高质量数 据优先" 的经典训练配方 。 这条结论之所以让社区炸锅,不只是因为它 "反直觉",更因为它击中了一个长期被忽略的问题:我们今天用 AdamW、Muon 训练大模型,却还在用偏 SGD 时代的 思路给数据打分。 说得更直白一点 —— 我们一直在拿 "旧地图" 给 "新导航" 指路。而这篇工作真正厉害的地方是:它不是在 "玄学筛数据" 上做小修小补,而是把 数据选择这件事,第一次系统性地对齐到了 优化器真正决定的更新方向上 。 论文链接:https://arxiv.org/pdf/2602.0540 从 "数据饥渴" 到 "数据墙",预训练进入 "每个 token 都要算账" 的时代 过去十年,大模型能力提升的主旋律,是一条几乎无人质疑的路径:模型更大、数据更多、算力更猛 ...

打破「数据暴力」预训练惯性,阿里Qwen、上交大等提出预训练动态数据选择范式OPUS - Reportify