Workflow
智能体评测
icon
Search documents
AI点外卖哪家强,美团LongCat团队做了个全面评测
量子位· 2025-10-20 01:16
美团LongCat团队投稿 发自 凹非寺 量子位 | 公众号 QbitAI 美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准—— VitaBench (Versatile Interactive Tasks Benchmark)。 VitaBench以 外卖点餐、餐厅就餐、旅游出行 三大高频生活场景为典型载体,构建了一个包含 66个工具 的交互式评测环境,并设计了跨场 景综合任务。 例如,在旅行规划任务中,要求智能体通过推理、调用工具与用户交互,完整完成从购票到预订餐厅的全流程。 团队首次从深度推理、工具使用与用户交互三大维度对智能体任务进行量化拆解,从而实现对复杂问题的可控构建。 评测结果显示,即便是当前先进的推理模型,在主榜(复杂跨场景任务)上的成功率也仅约 30% ,揭示了现有智能体与真实生活应用需求之 间的显著差距。 目前,VitaBench已全面开源,旨在为推动智能体在真实生活场景中的研发与落地提供重要基础设施。 研究背景:智能体评测与现实应用间存在巨大鸿沟 随着大语言模型在复杂推理与工具调用能力上的快速进步,基于LLM的智能体在真实生活场景中的应用日益广泛。 ...