Workflow
TMF
icon
Search documents
红杉公元:如何在AI下半场,定义“好问题”?丨WAVES新浪潮2025
3 6 Ke· 2025-06-20 07:00
WAVES新浪潮2025邀你一起走向中国创投的「新纪元」。 这是属于中国创投的新纪元。当下的中国创投市场,既是周期筑底的转折点,也是结构性转型的深化期。在政策主导、国资与资本高度集中的新 生态下,唯有顺应趋势、灵活调整,方能在不确定性中捕捉确定性机遇。 6月11-12日,杭州良渚文化艺术中心,36氪WAVES新浪潮2025大会以「新纪元」为主题,汇聚创投领域顶级投资人、新锐企业创始人,以及深 耕科技、创新、商业的科学家、创作者与学者,共同探讨AI技术革新、全球化浪潮与价值重估等前沿议题,拆解他们眼中的商业理想和未来世 界,一起讨论、寻找、走向中国创投「新纪元」。 6月12日上午,在创业者会场上红杉中国投资人公元,进行了一场独立演讲,主题为「如何在AI下半场,定义"好问题"?」。以下为演讲全文: 大家好!我是红杉中国的公元。很高兴受到36氪、暗涌waves的邀请,今天能和大家做一场分享。今天我想和大家讲的主题,和我们最近刚刚推出的xbench 相关。xbench是首个由投资机构推出的面向大模型和AI Agent的基准测试。我们为什么要推出这个基准测试,今天想和大家一起分享一下背后的故事。 · · 这两张图,左边 ...
红杉中国大动作!发布全新AI基准测试工具xbench,意义几何
5月26日,红杉中国对外宣布推出一款全新的AI基准测试工具xbench,并发布了一篇解释其工作原理的论文。这一突破性进展标志着自2022年ChatGPT引 爆通用人工智能(AGI)赛道以来,投资机构首次主导发布基准测试(Benchmark),给当下火爆的AI投资又加了一把火,在业内也受到广泛关注。 过去两年多,AI Benchmark渐渐成为评估基础大模型和AI Agent(AI智能体)能力的通用工具,海内外高校、研究机构和AI公司推出了大量不同维度的测试 体系。随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变 得越来越困难。 基于以上需求,根据红杉中国的介绍,xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实际落地价值。 该体系创新性地将评测任务分为两条互补的主线:(1)评估AI系统的能力上限与技术边界;(2)量化AI系统在真实场景的效用价值(Utility Value)。其中,后 者需要动态对齐现实世界的应用需求,基于实际工作流程和具体社会角色,为各垂直领域构建具有明确 ...
红杉中国推出 Agent 基准测试「xbench」,双轨评估体系,关注 AI 真实场景的效用
Founder Park· 2025-05-26 06:44
文章转载自红杉中国公众号「红杉汇」,内容略有调整。 红杉中国开放了他们内部进行 AI 和 Agent 基准测试的工具「 xbench」,并发布了相应论文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。 论文地址: https://xbench.org/files/xbench_profession_v2.4.pdf TLDR: | Benchmark | Category | 151 B | 8 2nd | g 3rd | Details | | --- | --- | --- | --- | --- | --- | | xbench-ScienceQA | AGI Tracking | 03- high 60.8 | Gemini 2.5 Pro 57.2 | Doubao-1.5-thinking- pro 53.6 | View > | | xbench-DeepSearch | AGI Tracking | 03 65+ | o4-mini-high 60+ | ...
红杉中国,刚刚发了一篇Paper
投资界· 2025-05-26 03:09
还有一个全新的benchmark 红杉中国,以出乎意料的方式刷屏国内AI圈。 报道 I 投资界PEdaily 今天,红杉中国对外宣布推出一款全新的AI基准测试工具x be n c h,并发布了一篇解释其 工作原理的论文。这是自2 02 2年Cha tGPT点燃AGI赛道之后,第一家由投资机构主导发 布的基准测试(Be n c hma r k),给火爆的AI圈增添了新的话题。 红杉中国出品,有何不同? x b e n c h最早是红杉中国在20 2 2年Ch a tGPT推出后,对AGI进程和主流模型进行的内部月 评与汇报。在建设和不断升级"私有题库"的过程中,发现主流模型"刷爆"题目的速度越 来越快,基准测试的有效时间在急剧缩短。 在官宣的技术报告中,红杉中国提出了这个让AI界头疼的问题:想要真实地反映AI的客 观 能 力 正 变 得 越 来 越 困 难 , 如 何 构 建 更 加 科 学 、 长 效 和 如 实 反 映 AI 客 观 能 力 的 评 价 体 系,正成为指引AI基数突破与产品迭代的重要需求。 科 学 、 长 效 和 如 实 反 映 , 切 中 了 当 前 AI 基 准 测 试 的 痛 点 。 ...
IDEA研究院沈向洋:从PMF到TMF, AI For Science是今天一定要做的事
IPO早知道· 2024-11-23 01:04
人工智能向前发展要造数据、合成数据,有可能带来大模型创业下新的百亿美金的问题。 本文为IPO早知道原创 作者|苏打 微信公众号|ipozaozhidao "如果说今天有什么事是我们一定要做的,那就是AI For Science。难以想象今天还有什么事情比它 更重要,今年诺贝尔奖的颁布便是最好证明。" 11月22日召开的2024年IDEA大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在 题为《从技术突破到产业融合》的主题演讲中指出,在技术大爆发时期开展创新,对技术的深度理解 尤为重要。 沈向洋表示,从长远的人类社会发展角度来看,巨大跃迁都是由技术创新带来的。工业时代的全球 GDP年均增速约为1%-2%,信息时代在3%-4%,人工智能时代,这个数字会是多少?与此同时, 他强调,随着AI的各项能力逼近、甚至超越人类,AI治理已成亟待全球共同面对的议题。 深圳或将成全球算力中心之一 "过去这几年人工智能的蓬勃发展,令大家对整个行业充满着期待。其中,算力、算法、数据是绕不 开的'三件套'。"现场,沈向洋分享了对上述三要素的新理解。 首先,算力是关键生产力。过去四五十年间,计算行业的发展中,最重要的一件事 ...