Llama 4遭竞技场背刺！实锤用特供版刷榜，2000+对战记录公开

初步分析表明，模型回复风格与语气是重要影响因素（详见风格控制排名），我们正在进行更深入的分析！（比如表情符号控制？）此外，我们即将在Arena平台上线Llama-4-Maverick的HuggingFace版本，排行榜结果将稍后公布。 Meta对我们平台政策的理解与我们对模型提供商的期待存在偏差——Meta本应明确标注 "Llama-4-Maverick-03-26- Experimental"是经过人类偏好优化的定制模型。为此，我们正在更新排行榜政策，以强化对公平性、可复现性评估的承诺，避免未来再出现此类混淆。克雷西西风发自凹非寺量子位 | 公众号 QbitAI Llama 4真要被锤爆了，这次是大模型竞技场（Chatbot Arena）官方亲自下场开怼：竞技场上，Meta提供给他们的是特供版！以下是竞技场背后lmarena.ai团队的原话：我们注意到社区对Llama-4最新版本在Arena平台的发布存在疑问。为确保完全透明，现公开2000余组模型对战数据供公众审阅，包含用户提示词、模型回复及用户偏好数据（链接详见下一条推文）。总结一下就是：官方下场表态后， ...