别让米其林主厨削土豆,英伟达用“小脑指挥大脑”,重构AGI生产力
NvidiaNvidia(US:NVDA) 3 6 Ke·2025-12-12 01:35

觉得大模型消耗的算力过大,英伟达推出的8B模型Orchestrator化身「拼好模」,通过组合工具降本增效,使用30%的预算,在HLE上拿下37.1%的成 绩。 最近,NVIDIA Research发现,只要经过适当微调,小模型已足以「指挥」大模型 英伟达研究团队的新模型Orchestrator仅有 80 亿参数(8B)的模型,不仅比以往的工具使用类AI智能体准确率更高、成本更低,还能在工具选择上精准对 齐用户的偏好。 在HLE基准测试中,Orchestrator斩获了37.1%的高分,一举超越了GPT-5(35.1%),同时在效率上提升了2.5倍。 在tau2-Bench和FRAMES测试中,Orchestrator同样以大幅优势领先 GPT-5,而其成本仅为后者的30%左右。 在多项指标上,Orchestrator均实现了性能与成本的最佳平衡,并能出色地泛化至未曾见过的工具中。 预印本链接:https://arxiv.org/abs/2511.21689 为什么「强模型+工具」还是不够好? 面对Humanity's Last Exam(HLE)这类超难综合推理考试,现在的大模型虽然「什么都懂一点」,但一到 ...