榜单更新,字节Seed2.0表现亮眼,我们还测了爆火的龙虾 |xbench 月报
红杉汇·2026-03-04 02:49

春节期间,多家公司发布的最新模型,xbench都进行了评测,并对leaderboard进行了更新。xbench最新发布的多 模态理解benchmark BabyVision,已被近期发布的多款模型产品纳入评测体系;包括seed-2.0、Qwen3.5、Kimi K2.5在内的项目均在其公开发布的技术报告中引用了Babyvision,体现出社区对该Benchmark的持续关注与广泛 采用。 xbench采用长青评估机制,持续汇报最新模型的能力表现,更多榜单未来将陆续更新,期待你的关注。你可以 在xbench.org上追踪我们的工作和查看实时更新的Leaderboard榜单排名;欢迎通过team@xbench.org与我们取得联 系,反馈意见。 xbench-ScienceQA Leaderboard更新 | | 模型名 | API | 模式 | 公司 | 本视台 | BoN | 平均响应时间 | input cost | output cost | 发布时间 | 测评时间 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | ...