Workflow
Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开
Meta PlatformsMeta Platforms(US:META) 量子位·2025-04-08 04:46

初步分析表明,模型回复风格与语气是重要影响因素 (详见风格控制排名) ,我们正在进行更深入的分析! (比如表情符号控制?) 此外,我们即将在Arena平台 上线Llama-4-Maverick的HuggingFace版本,排行榜结果将稍后公布 。 Meta对我们平台政策的理解与我们对模型提供商的期待存在偏差——Meta本应明确标注 "Llama-4-Maverick-03-26- Experimental"是经过人类偏好优化的定制模型 。 为此,我们正在更新排行榜政策,以强化对公平性、可复现性评估的承诺,避免未来再出现此类混淆。 克雷西 西风 发自 凹非寺 量子位 | 公众号 QbitAI Llama 4真要被锤爆了,这次是大模型竞技场 (Chatbot Arena) 官方亲自下场开怼: 竞技场上,Meta提供给他们的是特供版! 以下是竞技场背后lmarena.ai团队的原话: 我们注意到社区对Llama-4最新版本在Arena平台的发布存在疑问。为确保完全透明,现 公开2000余组模型对战数据供公众审阅 ,包 含用户提示词、模型回复及用户偏好数据 (链接详见下一条推文) 。 总结一下就是: 官方下场表态后, ...