Workflow
XBench
icon
Search documents
红杉中国xbench招募实习生
红杉汇· 2025-07-07 14:52
这里聚集着这样一群人:既懂模型的深层逻辑,更清楚商业落地的每一道关卡。我们相信,科学、长效和 真实反映AI客观能力的评测体系,是指引AI技术突破与产品迭代的重要需求。 xbench由红杉中国推出,是一款致力于量化AI系统在真实场景的效用价值,以及采用长青评估机制的AI基 准测试。 推荐阅读 壹 xbench评测集正式开源 我们期待这样的你: 贰 今天,我们推出xbench AI算法方向 AI Researcher方向 前/后端工程 AI产品经理 开源社区贡献者 叁 传感器、生物降解、医美...这些新材料或成创新催化剂 | 红杉爱科学 肆 5步拆解复杂难题,让你效率翻倍 | 红杉Library 伍 AI大家说 | 从被动执行到主动思考,快来升级你的提示词技巧 开放的实习生岗位(北京/上海/远程): 技术信仰:对AGI有近乎偏执的热情,坚信评测在AI浪潮中的巨大价值。 工程实战:具备扎实的动手能力,能够将理论应用于实践,方向包括但不限于NLP、多模 态、搜索算法等。 创新思维:善于从不同角度思考问题,提出创新的解决方案,推动AI技术的持续发展。 团队协作:具备良好的沟通能力和团队合作精神,能够与不同背景的同事高效 ...
AI下半场,大模型要少说话,多做事
Hu Xiu· 2025-07-01 01:33
本文来自微信公众号:中国企业家杂志 (ID:iceo-com-cn),作者:闫俊文,原文标题:《对话中国 信通院魏凯:AI下半场,大模型要少说话,多做事》,头图来自:AI生成 今年2月DeepSeek爆火,震惊国内外。实际上,在此之前,中国信息通信研究院(下称:中国信通院) 的大模型评测团队就观察到国内模型性能迅速提升的势头,他们当中就包括中国信通院人工智能研究所 所长魏凯。 魏凯说:"2024年一年,国内包括DeepSeek在内的多个大模型团队,一直从多角度努力,不断提升模型 性能,基本上每个月都能看到新的进展。在我们的测试中,DeepSeek在2024年4月的模型性能排名还比 较靠后,8月的版本已经是TOP10里的玩家了,到了10月的版本已经是前几名了,12月发布的DeepSeek- V3成为当时基础能力第一名的模型,而且是开源的,非常了不起。" 2024年底,工业和信息化部成立人工智能标准化技术委员会,魏凯任秘书长,主持日常工作。 6月底,《中国企业家》专访了魏凯,作为资深专家,他对大模型以及当前最火的Agent有独特的看法, 以下是访谈的内容详情(有删减): 一、DeepSeek一直在优化 《中国企业 ...
红杉公元:如何在AI下半场,定义“好问题”?丨WAVES新浪潮2025
3 6 Ke· 2025-06-20 07:00
WAVES新浪潮2025邀你一起走向中国创投的「新纪元」。 这是属于中国创投的新纪元。当下的中国创投市场,既是周期筑底的转折点,也是结构性转型的深化期。在政策主导、国资与资本高度集中的新 生态下,唯有顺应趋势、灵活调整,方能在不确定性中捕捉确定性机遇。 6月11-12日,杭州良渚文化艺术中心,36氪WAVES新浪潮2025大会以「新纪元」为主题,汇聚创投领域顶级投资人、新锐企业创始人,以及深 耕科技、创新、商业的科学家、创作者与学者,共同探讨AI技术革新、全球化浪潮与价值重估等前沿议题,拆解他们眼中的商业理想和未来世 界,一起讨论、寻找、走向中国创投「新纪元」。 6月12日上午,在创业者会场上红杉中国投资人公元,进行了一场独立演讲,主题为「如何在AI下半场,定义"好问题"?」。以下为演讲全文: 大家好!我是红杉中国的公元。很高兴受到36氪、暗涌waves的邀请,今天能和大家做一场分享。今天我想和大家讲的主题,和我们最近刚刚推出的xbench 相关。xbench是首个由投资机构推出的面向大模型和AI Agent的基准测试。我们为什么要推出这个基准测试,今天想和大家一起分享一下背后的故事。 · · 这两张图,左边 ...
谷歌发现AI存在畏死情绪;MiniMax考虑赴港IPO;京东员工数将破百万
Guan Cha Zhe Wang· 2025-06-19 00:55
6月18日,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench- DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采 用"黑白盒"机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测 集经常出现的过拟合问题,确保xbench的长期有效。(智通财经) MiniMax考虑赴港IPO 【观网财经丨智能早报 6月19日】 特朗普将第三次延长TikTok禁令期限 美国Axios新闻网报道称,当地时间6月17日,美国白宫表示,美国总统特朗普将第三次延长TikTok禁令 的最后期限。白宫新闻秘书莱维特当日在一份声明中表示,在延长期内,美国政府将努力"确保达成协 议,以便美国人民能够继续使用TikTok,并确保他们的数据安全无虞"。她补充说:"正如特朗普多次说 过的那样,他不希望TikTok消失。" 谷歌最新论文称AI存在畏死情绪 近日,谷歌发布最新论文,发现其最新AI模型存在"畏死"行为特征。谷歌团队在报告中指出,在Gemini 控制的宝可梦角色生命值接近归零时,AI模型会触发 ...
谷歌推出轻量级模型Gemini 2.5 Flash-Lite;腾讯元宝电脑版上线AI编程模式丨AIGC日报
创业邦· 2025-06-19 00:00
3.【谷歌推出轻量级模型Gemini 2.5 Flash-Lite】谷歌发布博文称,Gemini 2.5 Flash和Gemini 2.5 Pro模型进入稳定阶段,推出全新轻量级模型Gemini 2.5 Flash-Lite。(财联社) 4.【MiniMax发布视频生成工具Hailuo 02】6月18日,MiniMax(稀宇科技)发布新视频生成模型 Hailuo 02,新增1080p原生视频创作场景,在海螺视频的Web、APP以及开放平台API中推出上述的 模型更新,目前提供三个版本,768p-6s、768p-10s和1080p-6s。(界面新闻) 更多AIGC资讯 …… 1.【腾讯元宝电脑版上线AI编程模式】6月17日,腾讯元宝宣布,元宝电脑版AI编程模式上线。据介 绍,用户将元宝电脑版升级到v2.25以上版本,切换至DeepSeek模型,关闭深度思考,在输入框中 @AI编程即可唤起AI编程模式。在AI编程模式下,元宝自动开启双栏展示,左侧一句话提需求,右侧 实时展示元宝写的代码。(腾讯网) 2.【红杉中国正式开源AI基准测试xbench评测集】6月18日,红杉中国正式开源其AI基准测试工具 xbench的 ...
xbench评测集正式开源
红杉汇· 2025-06-17 13:27
https://xbench.org/ 2. github: https://github.com/xbench-ai/xbench-evals 3. huggingface: 三周前,我们正式推出了xbench,一款致力于量化AI系统在真实场景的效用价值,以及采用长青评估机制 的AI基准测试。 这期间,从大厂到创业公司,从大模型研究者到AI Agent开发者,我们收到了来自海内外的大量咨询,特别 是希望使用xbench评测集对他们的产品进行测试的需求与日俱增。 把红杉投资团队进行内部测评的工具打造成一款公开的AI基准测试,用公开透明的方式吸引更多AI人才和 项目的共创,是我们打造xbench的初衷。我们相信开源精神可以让xbench更好地进化,为AI社群创造更大的 价值。 因此,红杉中国今天正式开源xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。未来,我们将基 于大模型和AI Agent的发展情况不断动态更新评测集,并且采用"黑白盒"机制,既保证xbench的发展可以服 务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbenc ...
海内外AI催化不断,科创AIETF(588790)盘中飘红,寒武纪涨超3%
Sou Hu Cai Jing· 2025-06-04 02:25
Core Insights - The AI sector is experiencing rapid development in evaluation systems, interactive experiences, intelligent applications, and technological innovations, leading to increased competition and accelerated technological iterations, presenting both opportunities and challenges for the future [3]. Group 1: Market Performance - As of June 4, 2025, the Shanghai Stock Exchange Sci-Tech Innovation Board AI Index (950180) rose by 0.16%, with notable increases in constituent stocks such as Cambricon (688256) up 3.53% and Kingsoft Office (688111) up 1.87% [3]. - The Sci-Tech AI ETF (588790) increased by 0.18%, with a latest price of 0.57 yuan and a trading volume of 22.02 million yuan [3]. - Over the past year, the average daily trading volume of the Sci-Tech AI ETF was 271 million yuan, ranking first among comparable funds [3]. Group 2: Fund Performance - The Sci-Tech AI ETF saw a significant growth of 17.7 million yuan in scale over the past week, ranking second among comparable funds [4]. - The fund's shares increased by 6 million over the past week, also ranking second among comparable funds [4]. - In the last four trading days, the fund experienced net inflows on three occasions, totaling 41.94 million yuan, with an average daily net inflow of 10.49 million yuan [4]. Group 3: Financial Metrics - The latest financing buy-in amount for the Sci-Tech AI ETF reached 15.95 million yuan, with a financing balance of 72.43 million yuan [4]. - Since its inception, the fund's highest monthly return was 15.59%, with the longest consecutive months of increase being two, and the longest increase percentage being 26.17% [4]. - As of June 3, 2025, the fund's relative drawdown since inception was 0.40% compared to its benchmark [4]. Group 4: Fee Structure and Tracking Accuracy - The management fee for the Sci-Tech AI ETF is 0.50%, and the custody fee is 0.10%, which are the lowest among comparable funds [5]. - The tracking error over the past three months was 0.015%, indicating high tracking accuracy compared to similar funds [5]. Group 5: Valuation and Top Holdings - The latest price-to-earnings ratio (PE-TTM) for the index tracked by the Sci-Tech AI ETF is 116.72, which is below 82.49% of the time over the past year, indicating a historical low valuation [5]. - As of May 30, 2025, the top ten weighted stocks in the index accounted for 70.6% of the total, with companies like Lanqi Technology (688008) and Cambricon (688256) being significant contributors [5].
AI洞察:字节与OpenAI等Agent多点更新
Huachuang Securities· 2025-06-04 00:15
证 券 研 究 报 告 计算机行业重大事项点评 AI 洞察:字节与 OpenAI 等 Agent 多点更新 事项: 国内:5 月 26 日 AI 领域动态:红杉中国推出 AI 基准测试工具 XBench;豆包 App 上线实时视频通话功能,支持视频问答;QQ 浏览器推出高考 Agent "AI 高考通",助力高考生志愿填报与备考内容。昆仑万维发布天工超级智能体的 app 版本。海外:OpenAI 升级 Operator 智能体,模型从 4o 升级到 o3。 点评: 国内:Agent 生态与 C 端用户体验的双轮驱动持续显现成效: 海外:Agent 领域的竞争趋于白热化: 行业研究 计算机 2025 年 06 月 03 日 推荐(维持) 华创证券研究所 证券分析师:吴鸣远 邮箱:wumingyuan@hcyjs.com 执业编号:S0360523040001 行业基本数据 相对指数表现 | % | 1M | 6M | 12M | | --- | --- | --- | --- | | 绝对表现 | 0.5% | -3.6% | 34.1% | | 相对表现 | -1.0% | -2.6% | 27.8% | - ...
AI Agents:从工具到伙伴 | 2025 HongShan AI Day(下篇)
红杉汇· 2025-06-02 07:06
今天,让我们继续走进红杉中国第三届AI Day,深入挖掘AI Agents的更多潜力。 5月29日,以"AI Agents:From Copilot to Colleague"为主题的AI Day活动为200多位成员企业CEO和技术高管 提供了一场脑力交锋和技术激荡的舞台。 我们看到了全新基准测试工具xbench,还通过多场深度对话和圆桌论坛,共同探讨了AI Agents在商业应 用、技术演进以及未来企业发展的关键方向——从前沿的技术思考到实践中的应用场景,从创业机遇到未 来组织形态的变化。接下来,让我们再度回到这场思维盛宴,聚焦更多前沿洞见与实践成果,解锁未来智 能世界的更多密码。 <左右滑动查看更多> 红杉中国合伙人公元以"如何在AI下半场定义'好问题'"为主题,向参会嘉宾介绍了红杉中国推出的一款全新 AI基准测试工具xbench。 "当大家纷纷考满分的时候,到底是学生变聪明了还是卷子出问题了?"公元问大家。 拾象科技CEO李广密则为大家分享了在基础模型训练视角下和硅谷视角下关于AGI主线的最新思考。 他分享了对2025年LLM的7个关键判断: 一是 智能本身就是最大的应用,应该围绕智能本身去投入; 二是 ...
美团收入超预期,广告和佣金增长略放缓;比亚迪推“百补”,有车型比特斯拉FSD便宜;理想调整下沉市场开店方式丨百亿美元公司动向
晚点LatePost· 2025-05-27 03:02
美团收入超预期,广告和佣金收入增长放缓。 一季度营收为 865.6 亿元,高于预估的 854.4 亿元,同比增长 18.1%;经调整后净利润为 109.5 亿元, 高于预期的 97.3 亿元,同比增长 46.2%。 美团预计外卖业务二季度单量增速与一季度、去年四季度持平,到店业务预计会受到外卖补贴冲击, 导致需求转移,订单增速放缓,利润小幅下跌。 当季美团现金和短期理财总规模约为 1803 亿元,较去年底增加超过 120 亿元。据我们了解,因为有 短期理财产品正好到期,当季美团在手现金规模超过短期理财余额。 今天,淘宝宣布,闪购联合饿了么日订单已超 4000 万,其中非茶饮订单占比达 75%。4 月底,《商 业观察家》曾报道京东 1000 万外卖订单中,现制咖啡贡献了约一半订单。对外界竞争,美团 CEO 王 兴在本次财报会上说,"将不惜代价赢得竞争。" 其中,核心本地商业的配送、佣金、广告收入分别为 257.2 亿元、240.5 亿元和 118.62 亿元,对应增 速为 22.1%、20.1% 和 15.1%。配送收入加速增长,佣金和广告增长放缓。 比亚迪王朝、海洋智驾版车型降价,今天股价下跌近 6%。 今年 ...