榜单更新!Kimi 2.5表现突出|xbench月报
红杉汇·2026-02-03 00:04
截至2026年1月底,xbench的3个leaderboard已完成分数更新。Kimi K2.5悉数上榜,表现突出。 xbench近期发布了2个新的benchmark,分别是用来评估模型多模态理解能力的BabyVision,和Agent复杂任务指 令遵循能力的AgentIF-OneDay。 • BabyVision:评估大模型的多模态视觉理解能力的基准评测集,https://xbench.org/agi/babyVision • AgentIF-OneDay:评估通用智能体在日常场景、多附件、复杂任务中的指令遵循基准评测集,https://xbench.or g/agi/agentif xbench采用长青评估机制,持续汇报最新模型的能力表现,更多榜单未来将陆续更新,期待你的关注。你可以 在xbench.org上追踪我们的工作和查看实时更新的Leaderboard榜单排名。如果公司已上线发布的产品想参与xben ch评测和Leaderboard榜单,欢迎通过team@xbench.org与我们取得联系,反馈意见。 xbench-ScienceQA Leaderboard更新 | | 模型名 | API | 模 ...