xbench

Search documents
红杉中国xbench招募实习生
红杉汇· 2025-07-07 14:52
这里聚集着这样一群人:既懂模型的深层逻辑,更清楚商业落地的每一道关卡。我们相信,科学、长效和 真实反映AI客观能力的评测体系,是指引AI技术突破与产品迭代的重要需求。 xbench由红杉中国推出,是一款致力于量化AI系统在真实场景的效用价值,以及采用长青评估机制的AI基 准测试。 推荐阅读 壹 xbench评测集正式开源 我们期待这样的你: 贰 今天,我们推出xbench AI算法方向 AI Researcher方向 前/后端工程 AI产品经理 开源社区贡献者 叁 传感器、生物降解、医美...这些新材料或成创新催化剂 | 红杉爱科学 肆 5步拆解复杂难题,让你效率翻倍 | 红杉Library 伍 AI大家说 | 从被动执行到主动思考,快来升级你的提示词技巧 开放的实习生岗位(北京/上海/远程): 技术信仰:对AGI有近乎偏执的热情,坚信评测在AI浪潮中的巨大价值。 工程实战:具备扎实的动手能力,能够将理论应用于实践,方向包括但不限于NLP、多模 态、搜索算法等。 创新思维:善于从不同角度思考问题,提出创新的解决方案,推动AI技术的持续发展。 团队协作:具备良好的沟通能力和团队合作精神,能够与不同背景的同事高效 ...
AI下半场,大模型要少说话,多做事
Hu Xiu· 2025-07-01 01:33
本文来自微信公众号:中国企业家杂志 (ID:iceo-com-cn),作者:闫俊文,原文标题:《对话中国 信通院魏凯:AI下半场,大模型要少说话,多做事》,头图来自:AI生成 今年2月DeepSeek爆火,震惊国内外。实际上,在此之前,中国信息通信研究院(下称:中国信通院) 的大模型评测团队就观察到国内模型性能迅速提升的势头,他们当中就包括中国信通院人工智能研究所 所长魏凯。 魏凯说:"2024年一年,国内包括DeepSeek在内的多个大模型团队,一直从多角度努力,不断提升模型 性能,基本上每个月都能看到新的进展。在我们的测试中,DeepSeek在2024年4月的模型性能排名还比 较靠后,8月的版本已经是TOP10里的玩家了,到了10月的版本已经是前几名了,12月发布的DeepSeek- V3成为当时基础能力第一名的模型,而且是开源的,非常了不起。" 2024年底,工业和信息化部成立人工智能标准化技术委员会,魏凯任秘书长,主持日常工作。 6月底,《中国企业家》专访了魏凯,作为资深专家,他对大模型以及当前最火的Agent有独特的看法, 以下是访谈的内容详情(有删减): 一、DeepSeek一直在优化 《中国企业 ...
红杉公元:如何在AI下半场,定义“好问题”?丨WAVES新浪潮2025
3 6 Ke· 2025-06-20 07:00
WAVES新浪潮2025邀你一起走向中国创投的「新纪元」。 这是属于中国创投的新纪元。当下的中国创投市场,既是周期筑底的转折点,也是结构性转型的深化期。在政策主导、国资与资本高度集中的新 生态下,唯有顺应趋势、灵活调整,方能在不确定性中捕捉确定性机遇。 6月11-12日,杭州良渚文化艺术中心,36氪WAVES新浪潮2025大会以「新纪元」为主题,汇聚创投领域顶级投资人、新锐企业创始人,以及深 耕科技、创新、商业的科学家、创作者与学者,共同探讨AI技术革新、全球化浪潮与价值重估等前沿议题,拆解他们眼中的商业理想和未来世 界,一起讨论、寻找、走向中国创投「新纪元」。 6月12日上午,在创业者会场上红杉中国投资人公元,进行了一场独立演讲,主题为「如何在AI下半场,定义"好问题"?」。以下为演讲全文: 大家好!我是红杉中国的公元。很高兴受到36氪、暗涌waves的邀请,今天能和大家做一场分享。今天我想和大家讲的主题,和我们最近刚刚推出的xbench 相关。xbench是首个由投资机构推出的面向大模型和AI Agent的基准测试。我们为什么要推出这个基准测试,今天想和大家一起分享一下背后的故事。 · · 这两张图,左边 ...
谷歌发现AI存在畏死情绪;MiniMax考虑赴港IPO;京东员工数将破百万
Guan Cha Zhe Wang· 2025-06-19 00:55
6月18日,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench- DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采 用"黑白盒"机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测 集经常出现的过拟合问题,确保xbench的长期有效。(智通财经) MiniMax考虑赴港IPO 【观网财经丨智能早报 6月19日】 特朗普将第三次延长TikTok禁令期限 美国Axios新闻网报道称,当地时间6月17日,美国白宫表示,美国总统特朗普将第三次延长TikTok禁令 的最后期限。白宫新闻秘书莱维特当日在一份声明中表示,在延长期内,美国政府将努力"确保达成协 议,以便美国人民能够继续使用TikTok,并确保他们的数据安全无虞"。她补充说:"正如特朗普多次说 过的那样,他不希望TikTok消失。" 谷歌最新论文称AI存在畏死情绪 近日,谷歌发布最新论文,发现其最新AI模型存在"畏死"行为特征。谷歌团队在报告中指出,在Gemini 控制的宝可梦角色生命值接近归零时,AI模型会触发 ...
谷歌推出轻量级模型Gemini 2.5 Flash-Lite;腾讯元宝电脑版上线AI编程模式丨AIGC日报
创业邦· 2025-06-19 00:00
3.【谷歌推出轻量级模型Gemini 2.5 Flash-Lite】谷歌发布博文称,Gemini 2.5 Flash和Gemini 2.5 Pro模型进入稳定阶段,推出全新轻量级模型Gemini 2.5 Flash-Lite。(财联社) 4.【MiniMax发布视频生成工具Hailuo 02】6月18日,MiniMax(稀宇科技)发布新视频生成模型 Hailuo 02,新增1080p原生视频创作场景,在海螺视频的Web、APP以及开放平台API中推出上述的 模型更新,目前提供三个版本,768p-6s、768p-10s和1080p-6s。(界面新闻) 更多AIGC资讯 …… 1.【腾讯元宝电脑版上线AI编程模式】6月17日,腾讯元宝宣布,元宝电脑版AI编程模式上线。据介 绍,用户将元宝电脑版升级到v2.25以上版本,切换至DeepSeek模型,关闭深度思考,在输入框中 @AI编程即可唤起AI编程模式。在AI编程模式下,元宝自动开启双栏展示,左侧一句话提需求,右侧 实时展示元宝写的代码。(腾讯网) 2.【红杉中国正式开源AI基准测试xbench评测集】6月18日,红杉中国正式开源其AI基准测试工具 xbench的 ...
xbench评测集正式开源
红杉汇· 2025-06-17 13:27
https://xbench.org/ 2. github: https://github.com/xbench-ai/xbench-evals 3. huggingface: 三周前,我们正式推出了xbench,一款致力于量化AI系统在真实场景的效用价值,以及采用长青评估机制 的AI基准测试。 这期间,从大厂到创业公司,从大模型研究者到AI Agent开发者,我们收到了来自海内外的大量咨询,特别 是希望使用xbench评测集对他们的产品进行测试的需求与日俱增。 把红杉投资团队进行内部测评的工具打造成一款公开的AI基准测试,用公开透明的方式吸引更多AI人才和 项目的共创,是我们打造xbench的初衷。我们相信开源精神可以让xbench更好地进化,为AI社群创造更大的 价值。 因此,红杉中国今天正式开源xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。未来,我们将基 于大模型和AI Agent的发展情况不断动态更新评测集,并且采用"黑白盒"机制,既保证xbench的发展可以服 务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbenc ...
海内外AI催化不断,科创AIETF(588790)盘中飘红,寒武纪涨超3%
Sou Hu Cai Jing· 2025-06-04 02:25
科创AIETF紧密跟踪上证科创板人工智能指数,上证科创板人工智能指数从科创板市场中选取30只市值较大的为人工智能提供基础资源、技术以及应用支持 的上市公司证券作为指数样本,以反映科创板市场代表性人工智能产业上市公司证券的整体表现。 规模方面,科创AIETF近1周规模增长1770.30万元,实现显著增长,新增规模位居可比基金2/6。 截至2025年6月4日 09:43,上证科创板人工智能指数(950180)上涨0.16%,成分股寒武纪(688256)上涨3.53%,云天励飞(688343)上涨2.16%,金山办公(688111) 上涨1.87%,奥比中光(688322)上涨1.18%,优刻得(688158)上涨1.13%。科创AIETF(588790)上涨0.18%,最新价报0.57元。流动性方面,科创AIETF成交 2202.27万元。拉长时间看,截至6月3日,科创AIETF近1年日均成交2.71亿元,排名可比基金第一。 近日AI领域动态:红杉中国推出AI基准测试工具XBench;豆包App上线实时视频通话功能,支持视频问答;QQ浏览器推出高考Agent "AI高考通",助力高 考生志愿填报与备考内容。昆仑万 ...
AI洞察:字节与OpenAI等Agent多点更新
Huachuang Securities· 2025-06-04 00:15
证 券 研 究 报 告 计算机行业重大事项点评 AI 洞察:字节与 OpenAI 等 Agent 多点更新 事项: 国内:5 月 26 日 AI 领域动态:红杉中国推出 AI 基准测试工具 XBench;豆包 App 上线实时视频通话功能,支持视频问答;QQ 浏览器推出高考 Agent "AI 高考通",助力高考生志愿填报与备考内容。昆仑万维发布天工超级智能体的 app 版本。海外:OpenAI 升级 Operator 智能体,模型从 4o 升级到 o3。 点评: 国内:Agent 生态与 C 端用户体验的双轮驱动持续显现成效: 海外:Agent 领域的竞争趋于白热化: 行业研究 计算机 2025 年 06 月 03 日 推荐(维持) 华创证券研究所 证券分析师:吴鸣远 邮箱:wumingyuan@hcyjs.com 执业编号:S0360523040001 行业基本数据 相对指数表现 | % | 1M | 6M | 12M | | --- | --- | --- | --- | | 绝对表现 | 0.5% | -3.6% | 34.1% | | 相对表现 | -1.0% | -2.6% | 27.8% | - ...
AI Agents:从工具到伙伴 | 2025 HongShan AI Day(下篇)
红杉汇· 2025-06-02 07:06
今天,让我们继续走进红杉中国第三届AI Day,深入挖掘AI Agents的更多潜力。 5月29日,以"AI Agents:From Copilot to Colleague"为主题的AI Day活动为200多位成员企业CEO和技术高管 提供了一场脑力交锋和技术激荡的舞台。 我们看到了全新基准测试工具xbench,还通过多场深度对话和圆桌论坛,共同探讨了AI Agents在商业应 用、技术演进以及未来企业发展的关键方向——从前沿的技术思考到实践中的应用场景,从创业机遇到未 来组织形态的变化。接下来,让我们再度回到这场思维盛宴,聚焦更多前沿洞见与实践成果,解锁未来智 能世界的更多密码。 <左右滑动查看更多> 红杉中国合伙人公元以"如何在AI下半场定义'好问题'"为主题,向参会嘉宾介绍了红杉中国推出的一款全新 AI基准测试工具xbench。 "当大家纷纷考满分的时候,到底是学生变聪明了还是卷子出问题了?"公元问大家。 拾象科技CEO李广密则为大家分享了在基础模型训练视角下和硅谷视角下关于AGI主线的最新思考。 他分享了对2025年LLM的7个关键判断: 一是 智能本身就是最大的应用,应该围绕智能本身去投入; 二是 ...
美团收入超预期,广告和佣金增长略放缓;比亚迪推“百补”,有车型比特斯拉FSD便宜;理想调整下沉市场开店方式丨百亿美元公司动向
晚点LatePost· 2025-05-27 03:02
美团收入超预期,广告和佣金收入增长放缓。 一季度营收为 865.6 亿元,高于预估的 854.4 亿元,同比增长 18.1%;经调整后净利润为 109.5 亿元, 高于预期的 97.3 亿元,同比增长 46.2%。 美团预计外卖业务二季度单量增速与一季度、去年四季度持平,到店业务预计会受到外卖补贴冲击, 导致需求转移,订单增速放缓,利润小幅下跌。 当季美团现金和短期理财总规模约为 1803 亿元,较去年底增加超过 120 亿元。据我们了解,因为有 短期理财产品正好到期,当季美团在手现金规模超过短期理财余额。 今天,淘宝宣布,闪购联合饿了么日订单已超 4000 万,其中非茶饮订单占比达 75%。4 月底,《商 业观察家》曾报道京东 1000 万外卖订单中,现制咖啡贡献了约一半订单。对外界竞争,美团 CEO 王 兴在本次财报会上说,"将不惜代价赢得竞争。" 其中,核心本地商业的配送、佣金、广告收入分别为 257.2 亿元、240.5 亿元和 118.62 亿元,对应增 速为 22.1%、20.1% 和 15.1%。配送收入加速增长,佣金和广告增长放缓。 比亚迪王朝、海洋智驾版车型降价,今天股价下跌近 6%。 今年 ...