任务复杂度
Search documents
AgentIF-OneDay发布,评估全场景长时复杂任务
红杉汇· 2026-01-21 00:06
随着大模型在单点推理上日益逼近PhD水平,Agent领域迎来了新的分水岭:短程任务表现惊艳,长程任务却显 乏力。为精准评估大模型的多模态理解与复杂问题解决能力,红杉中国在两周内连续发布两篇论文,旨在通过 构建更科学的评估基准,预判技术演进的未来方向。 Agent能否协助你一天的生活? 自从红杉中国xbench发布ScienceQA与DeepSearch以来,这两个评测集已经经历了多次迭代升级。无论是模 型本身,还是围绕模型构建的Agent系统,都已经在这些以分钟级为单位的集中推理任务上能够稳定胜任, 从最初的human-average水平,逐渐达到接近PhD-level的表现。 随着我们进一步进入Agent能力评测的领域,我们发现Agent完成短时任务与长时任务之间存在巨大的能力鸿 沟。即便在单点推理和局部任务中已达到极高水平,一旦任务在突破一般人一小时可处理的复杂度,Agent 的整体完成度就会出现明显下降。 从xbench所坚持的理念出发,更好的评估模型和智能体在实际工作和生活中的价值。我们希望通过评测体系 来观察行业技术路线的演进,预测模型能力的上限,同时也希望给业界补充一个面向utility和econ ...
真高管的长成:小B、Nick与老A的故事
3 6 Ke· 2025-08-21 01:33
一说到"真高管",我们很容易想到那些成功的大公司里面的明星高管(方洪波、余承东、Tim Cook等)。 这些"真高管"是怎么长成的?我怎样才能成为这样的人?我们公司怎样才能发展出这样的人才? 于是,有些人就会去分析大公司的人才发展体系。最容易看到的就是那些动辄就十几个级别的"职业等级体系"。举个例子,一个大公司的典型职级体系长 成这样: | 职级序号 | 职级名称 | | --- | --- | | M9 | 总裁级 / CEO级 | | M8 | 高级副总裁级 / SVP级 | | M7 | 副总裁级 / VP级 | | P10 / M6 | 总经理 / GM级 | | P9 / M5 | 高级总监级 | | P8 / M4 | 总监级 | | P7 / M3 | 副总监 | | P6 / M2 | 高级经理 | | P5 / M1 | 经理级 | | P4 | 主管级 | | РЗ | 专员级 | | P2 | 操作 2 级 | | P1 | 操作 1 级 | 那些成功大公司,要接待一波波的参观者、学习者。用职级体系去解释这些高管的发展是个省时省力又"专业"的方式,所以公司内的人也乐见外部这样理 解他们那 ...