TMF - filings, earnings calls, financial reports, news

TMF

Search documents

红杉公元：如何在AI下半场，定义“好问题”？丨WAVES新浪潮2025

3 6 Ke· 2025-06-20 07:00

WAVES新浪潮2025邀你一起走向中国创投的「新纪元」。这是属于中国创投的新纪元。当下的中国创投市场，既是周期筑底的转折点，也是结构性转型的深化期。在政策主导、国资与资本高度集中的新生态下，唯有顺应趋势、灵活调整，方能在不确定性中捕捉确定性机遇。 6月11-12日，杭州良渚文化艺术中心，36氪WAVES新浪潮2025大会以「新纪元」为主题，汇聚创投领域顶级投资人、新锐企业创始人，以及深耕科技、创新、商业的科学家、创作者与学者，共同探讨AI技术革新、全球化浪潮与价值重估等前沿议题，拆解他们眼中的商业理想和未来世界，一起讨论、寻找、走向中国创投「新纪元」。 6月12日上午，在创业者会场上红杉中国投资人公元，进行了一场独立演讲，主题为「如何在AI下半场，定义"好问题"？」。以下为演讲全文：大家好！我是红杉中国的公元。很高兴受到36氪、暗涌waves的邀请，今天能和大家做一场分享。今天我想和大家讲的主题，和我们最近刚刚推出的xbench 相关。xbench是首个由投资机构推出的面向大模型和AI Agent的基准测试。我们为什么要推出这个基准测试，今天想和大家一起分享一下背后的故事。 · · 这两张图，左边 ...

人工智能

TMF

AGI track

Profession - aligned track

Profession - aligned track

投资

xbench

红杉中国大动作！发布全新AI基准测试工具xbench，意义几何

Zheng Quan Shi Bao Wang· 2025-05-26 12:50

5月26日，红杉中国对外宣布推出一款全新的AI基准测试工具xbench，并发布了一篇解释其工作原理的论文。这一突破性进展标志着自2022年ChatGPT引爆通用人工智能(AGI)赛道以来，投资机构首次主导发布基准测试(Benchmark)，给当下火爆的AI投资又加了一把火，在业内也受到广泛关注。过去两年多，AI Benchmark渐渐成为评估基础大模型和AI Agent(AI智能体)能力的通用工具，海内外高校、研究机构和AI公司推出了大量不同维度的测试体系。随着基础模型的快速发展和AI Agent进入规模化应用阶段，被广泛使用的基准测试却面临一个日益尖锐的问题：想要真实地反映AI的客观能力正变得越来越困难。基于以上需求，根据红杉中国的介绍，xbench采用双轨评估体系，构建多维度测评数据集，旨在同时追踪模型的理论能力上限与Agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线：(1)评估AI系统的能力上限与技术边界；(2)量化AI系统在真实场景的效用价值(Utility Value)。其中，后者需要动态对齐现实世界的应用需求，基于实际工作流程和具体社会角色，为各垂直领域构建具有明确 ...

红杉中国推出 Agent 基准测试「xbench」，双轨评估体系，关注 AI 真实场景的效用

Founder Park· 2025-05-26 06:44

文章转载自红杉中国公众号「红杉汇」，内容略有调整。红杉中国开放了他们内部进行 AI 和 Agent 基准测试的工具「 xbench」，并发布了相应论文《xbench: Tracking Agents Productivity，Scaling with Profession-Aligned Real-World Evaluations》。论文地址： https://xbench.org/files/xbench_profession_v2.4.pdf TLDR： | Benchmark | Category | 151 B | 8 2nd | g 3rd | Details | | --- | --- | --- | --- | --- | --- | | xbench-ScienceQA | AGI Tracking | 03- high 60.8 | Gemini 2.5 Pro 57.2 | Doubao-1.5-thinking- pro 53.6 | View > | | xbench-DeepSearch | AGI Tracking | 03 65+ | o4-mini-high 60+ | ...

投资界· 2025-05-26 03:09

还有一个全新的benchmark 红杉中国，以出乎意料的方式刷屏国内AI圈。报道 I 投资界PEdaily 今天，红杉中国对外宣布推出一款全新的AI基准测试工具x be n c h，并发布了一篇解释其工作原理的论文。这是自2 02 2年Cha tGPT点燃AGI赛道之后，第一家由投资机构主导发布的基准测试（Be n c hma r k），给火爆的AI圈增添了新的话题。红杉中国出品，有何不同？ x b e n c h最早是红杉中国在20 2 2年Ch a tGPT推出后，对AGI进程和主流模型进行的内部月评与汇报。在建设和不断升级"私有题库"的过程中，发现主流模型"刷爆"题目的速度越来越快，基准测试的有效时间在急剧缩短。在官宣的技术报告中，红杉中国提出了这个让AI界头疼的问题：想要真实地反映AI的客观能力正变得越来越困难，如何构建更加科学、长效和如实反映 AI 客观能力的评价体系，正成为指引AI基数突破与产品迭代的重要需求。科学、长效和如实反映，切中了当前 AI 基准测试的痛点。 ...

IDEA研究院沈向洋：从PMF到TMF， AI For Science是今天一定要做的事

IPO早知道· 2024-11-23 01:04

人工智能向前发展要造数据、合成数据，有可能带来大模型创业下新的百亿美金的问题。本文为IPO早知道原创作者｜苏打微信公众号｜ipozaozhidao "如果说今天有什么事是我们一定要做的，那就是AI For Science。难以想象今天还有什么事情比它更重要，今年诺贝尔奖的颁布便是最好证明。" 11月22日召开的2024年IDEA大会上，IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在题为《从技术突破到产业融合》的主题演讲中指出，在技术大爆发时期开展创新，对技术的深度理解尤为重要。沈向洋表示，从长远的人类社会发展角度来看，巨大跃迁都是由技术创新带来的。工业时代的全球 GDP年均增速约为1%-2%，信息时代在3%-4%，人工智能时代，这个数字会是多少？与此同时，他强调，随着AI的各项能力逼近、甚至超越人类，AI治理已成亟待全球共同面对的议题。深圳或将成全球算力中心之一 "过去这几年人工智能的蓬勃发展，令大家对整个行业充满着期待。其中，算力、算法、数据是绕不开的'三件套'。"现场，沈向洋分享了对上述三要素的新理解。首先，算力是关键生产力。过去四五十年间，计算行业的发展中，最重要的一件事 ...