打破「数据暴力」预训练惯性，阿里Qwen、上交大等提出预训练动态数据选择范式OPUS

在 "大模型预训练" 这件事上，行业里几乎有一条默认信条：想要更强，就得喂更多、更新、更高质量的数据。但最近一篇来自阿里巴巴、上海交大、UW– Madison 等团队的工作，在 Hugging Face Daily Paper 冲上月度 Top1 后，直接把这个共识撕开了一道口子：只从中低质量数据里动态挑选，竟然能打赢 "高质量数据优先" 的经典训练配方。这条结论之所以让社区炸锅，不只是因为它 "反直觉"，更因为它击中了一个长期被忽略的问题：我们今天用 AdamW、Muon 训练大模型，却还在用偏 SGD 时代的思路给数据打分。说得更直白一点 —— 我们一直在拿 "旧地图" 给 "新导航" 指路。而这篇工作真正厉害的地方是：它不是在 "玄学筛数据" 上做小修小补，而是把数据选择这件事，第一次系统性地对齐到了优化器真正决定的更新方向上。论文链接：https://arxiv.org/pdf/2602.0540 从 "数据饥渴" 到 "数据墙"，预训练进入 "每个 token 都要算账" 的时代过去十年，大模型能力提升的主旋律，是一条几乎无人质疑的路径：模型更大、数据更多、算力更猛 ...