Workflow
大语言模型测试时扩展策略研究成果
icon
Search documents
微软发布首个测试时扩展大规模研究,还给出了终极指南
机器之心· 2025-12-10 10:30
机器之心报道 编辑:Panda 如果说大模型的预训练(Pre-training)是一场拼算力、拼数据的「军备竞赛」,那么 测试时扩展(Test-time scaling, TTS) 更像是一场在推理阶段进行的「即时战 略游戏」。 现在的共识是:让模型在回答问题前「多想一会儿」,往往能得到更好的结果。这听起来像是一个完美的免费午餐:只要能在推理时动态分配更多计算资源,就 能让模型的智商原地起飞。 但问题来了:我们该怎么让 LLM「多想」? 好比让一群学生做题:是让一个学生反复修改答案(序列策略)?还是让一百个学生同时做题然后投票(并行策略)?亦或是让他们开个会讨论一下(混合策 略)? 更重要的是,有些「学生」(模型)虽然聪明,但想得越多反而越容易钻牛角尖;而另一些则必须深思熟虑才能解出难题。 究竟哪个 TTS 策略才是那个「天选之子」? 为了结束这场盲人摸象般的争论,微软终于出手了。 论文标题:The Art of Scaling Test-Time Compute for Large Language Models 论文地址:https://arxiv.org/abs/2512.02008 这项研究不仅打破了 ...