Workflow
Prompt-to-leaderboard(P2L)
icon
Search documents
任意Prompt就能给大模型实时排名!竞技场新玩法,还能自动找最佳AI来作答
量子位· 2025-02-27 09:37
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 给大模型排名这事儿,现在有了新玩法—— 任意输入一个Prompt ,就能给大模型们 实时排名 ,精准找到最适合做这个Prompt的大模型! 这就是竞技场(lmarena.ai)最新推出的排名方式,叫做 Prompt-to-leaderboard(P2L) 。 主打的就是找到最能直击你Prompt"灵魂"的那款大模型。 话不多说,我们来看下效果。 例如给一个算数的Prompt: 137124x12312 | Rank | ▲ Delta | Model ▲ | | P2L | | --- | --- | --- | --- | --- | | | | | | Score | | ਹ | 7 | 03-mini-high | | 1228 | | 2 | 3 | 01-2024-12-17 | | 1212 | | 3 | g | 01-mini | | 1205 | | 4 | 8 | 03-mini | | ت 87 | | 5 | 0 | DeepSeek-R1 | | 1140 | | 6 | -4 | Gemini-2.0-Flash-Thinkin ...