大模型选型

Search documents
告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025
量子位· 2025-06-18 04:58
VLOG Lab 投稿 量子位 | 公众号 QbitAI 还在靠"开盲盒"选择大模型? 来自弗吉尼亚理工大学的研究人员推出了个选型框架 LensLLM —— 大幅提升选型效果的同时,成本却降低近90%。 众所周知,在大模型如雨后春笋般爆发的时代,选型成了AI工程师和研究员最大的痛点之一: 首度揭示:LLM微调中的"相变"动力学 近几年,大语言模型(LLM)从学术走向产业,从GPT到LLaMA,再到Mistral、DeepSeek,光是名字就让人眼花缭乱。 但选错模型不仅会浪费GPU资源,更可能拖慢产品迭代速度,甚至导致项目失败。 现有方法依赖经验、调参和"玄学",在成本和效果之间很难找到平衡。 而LensLLM正是在这个背景下诞生,其目标是 终结LLM选型"靠感觉"的时代 。 展开来说,LensLLM的理论基础来自一项 全新的PAC-Bayes泛化界限推导 ,首次从数学上揭示了LLM在不同数据规模下微调表现的 非线性 变化规律 ,具体表现为: 模型多如牛毛,怎么选才不会"踩坑"? 而使用LensLLM框架,不仅可以 预测微调后的性能走势 ,还通过全新理论解释了大模型微调中一直难以理解的"玄学现象"。 按照团队 ...