榜单更新！Kimi 2.5表现突出｜xbench月报

截至2026年1月底，xbench的3个leaderboard已完成分数更新。Kimi K2.5悉数上榜，表现突出。 xbench近期发布了2个新的benchmark，分别是用来评估模型多模态理解能力的BabyVision，和Agent复杂任务指令遵循能力的AgentIF-OneDay。 • BabyVision：评估大模型的多模态视觉理解能力的基准评测集，https://xbench.org/agi/babyVision • AgentIF-OneDay：评估通用智能体在日常场景、多附件、复杂任务中的指令遵循基准评测集，https://xbench.or g/agi/agentif xbench采用长青评估机制，持续汇报最新模型的能力表现，更多榜单未来将陆续更新，期待你的关注。你可以在xbench.org上追踪我们的工作和查看实时更新的Leaderboard榜单排名。如果公司已上线发布的产品想参与xben ch评测和Leaderboard榜单，欢迎通过team@xbench.org与我们取得联系，反馈意见。 xbench-ScienceQA Leaderboard更新 | | 模型名 | API | 模 ...