DeepSearch

Search documents
北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”
量子位· 2025-06-26 14:11
北京大学DS-Lab团队 投稿 量子位 | 公众号 QbitAI 北京大学DS-Lab 发布 ScholarSearch, 旨在对LLMs的检索、信息整合及推理能力进行综合性、极限性考验。 研究团队招募了来自北京大学各个学院的本科和研究生志愿者,并为他们提供了集中培训。志愿者从公开可访问的在线出版物和网站中选择材 料,以制定需要网络搜索解答的学术问题。 LLMs能当科研助手了? 北大出考题,结果显示:现有模型都不能胜任。 北京大学DS-Lab发布ScholarSearch,这是首个专门用于评估大语言模型在学术研究中复杂信息检索能力的数据集,包含223道高难度的学 术检索题目及其答案。 它对具备联网搜索能力的代表性模型及纯推理模型进行了评估,结果显示,顶尖的纯推理模型,如GPT-4.1、DeepSeek-R1,在处理这些问 题时准确率普遍低于9%。 具备搜索功能的模型,相较于其无搜索能力的版本,准确率有显著提升,例如,GPT-4o-mini的准确率提升超过四倍。 尽管浏览能力带来了显著改进,但即便是最先进的搜索增强型模型,如 GPT-4o-search-preview,其准确率仅为18.83% 。 方法 Ope ...
谷歌推出轻量级模型Gemini 2.5 Flash-Lite;腾讯元宝电脑版上线AI编程模式丨AIGC日报
创业邦· 2025-06-19 00:00
3.【谷歌推出轻量级模型Gemini 2.5 Flash-Lite】谷歌发布博文称,Gemini 2.5 Flash和Gemini 2.5 Pro模型进入稳定阶段,推出全新轻量级模型Gemini 2.5 Flash-Lite。(财联社) 4.【MiniMax发布视频生成工具Hailuo 02】6月18日,MiniMax(稀宇科技)发布新视频生成模型 Hailuo 02,新增1080p原生视频创作场景,在海螺视频的Web、APP以及开放平台API中推出上述的 模型更新,目前提供三个版本,768p-6s、768p-10s和1080p-6s。(界面新闻) 更多AIGC资讯 …… 1.【腾讯元宝电脑版上线AI编程模式】6月17日,腾讯元宝宣布,元宝电脑版AI编程模式上线。据介 绍,用户将元宝电脑版升级到v2.25以上版本,切换至DeepSeek模型,关闭深度思考,在输入框中 @AI编程即可唤起AI编程模式。在AI编程模式下,元宝自动开启双栏展示,左侧一句话提需求,右侧 实时展示元宝写的代码。(腾讯网) 2.【红杉中国正式开源AI基准测试xbench评测集】6月18日,红杉中国正式开源其AI基准测试工具 xbench的 ...
xbench评测集正式开源
红杉汇· 2025-06-17 13:27
https://xbench.org/ 2. github: https://github.com/xbench-ai/xbench-evals 3. huggingface: 三周前,我们正式推出了xbench,一款致力于量化AI系统在真实场景的效用价值,以及采用长青评估机制 的AI基准测试。 这期间,从大厂到创业公司,从大模型研究者到AI Agent开发者,我们收到了来自海内外的大量咨询,特别 是希望使用xbench评测集对他们的产品进行测试的需求与日俱增。 把红杉投资团队进行内部测评的工具打造成一款公开的AI基准测试,用公开透明的方式吸引更多AI人才和 项目的共创,是我们打造xbench的初衷。我们相信开源精神可以让xbench更好地进化,为AI社群创造更大的 价值。 因此,红杉中国今天正式开源xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。未来,我们将基 于大模型和AI Agent的发展情况不断动态更新评测集,并且采用"黑白盒"机制,既保证xbench的发展可以服 务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbenc ...
X @Elon Musk
Elon Musk· 2025-06-16 14:31
DeepSearch and Think will activate automatically as needed in Grok 3.5vittorio (@IterIntellectus):Use DeepSearch to find and collect major daily news stories on 𝕏 posted within the last 24 hours. Activate think mode to carefully analyze and process the news. Summarize the top 10 stories how a clinically retarded person would interpret and explain them, using very simple ...
AI周度跟踪2025年第7期:国内外AI投入力度不减,AI浪潮势能充足
Orient Securities· 2025-05-22 13:30
传媒行业 行业研究 | 动态跟踪 国内外 AI 投入力度不减,AI 浪潮势能充足 ——AI 周度跟踪 2025 年第 7 期 核心观点 投资建议与投资标的 ⚫ 看好 AI 新周期带动算力-算法-应用生态三端依次持续推进,我们建议增加港股互联 网板块配置仓位,核心推荐处于产业链前端,云消费弹性明显+基模实力领先+算法 具备优势的阿里巴巴-W(09988,买入),多模态视频生成模型技术全球领先,商业 化变现节奏加快的快手-W(01024,买入),卡位最佳社交场景,具备数据+应用生 态优势的腾讯控股(00700,买入),以及加速完善 AI 基模和应用布局,AI 搜索领先 的百度集团-SW(09888,买入)。 风险提示 行业发展及 AI 应用落地不及预期,宏观经济风险,海外政策风险。 国家/地区 中国 行业 传媒行业 报告发布日期 2025 年 05 月 22 日 | 项雯倩 | 021-63325888*6128 xiangwenqian@orientsec.com.cn | | --- | --- | | | 执业证书编号:S0860517020003 | | | 香港证监会牌照:BQP120 | | 李雨琪 ...
AI周度跟踪2025年第7期:国内外AI投入力度不减,AI浪潮势能充足-20250522
Orient Securities· 2025-05-22 11:50
传媒行业 行业研究 | 动态跟踪 国内外 AI 投入力度不减,AI 浪潮势能充足 ——AI 周度跟踪 2025 年第 7 期 核心观点 投资建议与投资标的 ⚫ 看好 AI 新周期带动算力-算法-应用生态三端依次持续推进,我们建议增加港股互联 网板块配置仓位,核心推荐处于产业链前端,云消费弹性明显+基模实力领先+算法 具备优势的阿里巴巴-W(09988,买入),多模态视频生成模型技术全球领先,商业 化变现节奏加快的快手-W(01024,买入),卡位最佳社交场景,具备数据+应用生 态优势的腾讯控股(00700,买入),以及加速完善 AI 基模和应用布局,AI 搜索领先 的百度集团-SW(09888,买入)。 风险提示 行业发展及 AI 应用落地不及预期,宏观经济风险,海外政策风险。 国家/地区 中国 行业 传媒行业 报告发布日期 2025 年 05 月 22 日 | 项雯倩 | 021-63325888*6128 xiangwenqian@orientsec.com.cn | | --- | --- | | | 执业证书编号:S0860517020003 | | | 香港证监会牌照:BQP120 | | 李雨琪 ...
传统搜索与AI搜索“互搏”,谁能获益?
Di Yi Cai Jing· 2025-05-20 12:06
从传统搜索引擎到AI搜索,原本的广告形式是否需要变化、如何变化,仍是需要思考的问题。 新技术冲击下,近期更多搜索厂商开始了AI化进程。 不久前,苹果表示有计划在Safari浏览器中引入AI功能选项。上周,百度AI搜索上线DeepSearch。5月19日,QQ浏览器升级为AI浏览器并推出QBot智能体, 搭载腾讯混元和DeepSeek双模型。而在即将开始的谷歌I/O开发者大会上,业界预计谷歌也将谈及相关进展。 时至今日,AI搜索和传统搜索引擎两股力量仍在激烈博弈。有业界人士称,已有浏览器使用量下降,原因是用户转向使用AI,另一些坚持搜索引擎仍有价 值的企业,则释放了AI功能使浏览器用户活跃度上升的信号。现阶段共识的缺乏,反映了AI对搜索的改造仍在持续。 厂商:用户使用量变化体感不一 当问答可以在大模型应用中进行,用搜索引擎就显得麻烦。目前不少主流大模型应用已有联网搜索功能。不过,浏览器或搜索引擎厂商对于AI冲击的感知 并不一致。 苹果公司高级副总裁埃迪·库称,4月Safari浏览器搜索量出现首次下滑,一大原因是越来越多人使用AI技术。此前Safari浏览器未加入AI功能。 然而QQ浏览器AI功能在灰度测试时,团 ...
AI周报|智能体平台Manus开放注册;梁文锋署名DeepSeek新论文
Di Yi Cai Jing· 2025-05-18 06:47
DeepSeek-V3解决"硬件瓶颈"的核心在于四项创新技术:内存优化、计算优化、通信优化、推理加速 AI智能体平台Manus开放注册 AI智能体平台Manus近日开放注册。根据官方公告,新注册用户每天可免费获得300积分,并额外一次 性获得1000积分。Manus提供了每月19美元的基础计划、每月39美元的Plus计划和每月199美元的Pro计 划。其中,基础计划用户每月将获得1900积分。Manus给出的数据分析、网页设计和应用开发相关案 例,分别消耗了200、360和900积分。 点评:今年3月,Manus一经推出就"一码难求",很多网友想获得Manus的内测邀请码。随着知名度提 高,Manus背后的公司北京红色蝴蝶科技有限公司近日传出拿融资的传闻。天眼查App显示,近日 Manus关联公司北京红色蝴蝶科技有限公司注册资本由1000万美元增资至2000万美元。 英伟达拿下沙特芯片大单 5月13日,在沙特阿拉伯利雅得举行的沙特-美国投资论坛上,英伟达CEO黄仁勋表示,英伟达与沙特主 权财富基金PIF刚成立的人工智能公司Humain达成芯片供应协议。英伟达将向该公司提供1.8万颗GB300 芯片,用于建设容 ...
9点1氪:官方回应正新鸡排鸡腿大量生蛆;取款身亡老人家属称与农行达成和解;胖东来本月销售额接近10个亿
36氪· 2025-05-16 14:55
当地 市场 监督管理局 已对现场同类产品进行封存并送检,将根据检验结果依法查处。 整理 |丁丁炒面 百力司康 36氪获悉,据外媒报道,百力司康据称考虑赴香港IPO。 5月16日,仁怀市市场监督管理局发布通报:2025年5月16日,网上出现关于"正新鸡排鸡腿里面全是蛆"的视频,引发网民关 注。我局高度重视,第一时间组织调查组依法进行调查。经查,该涉事门店证照齐全。我局已对现场同类产品进行封存并送 检,将根据检验结果依法查处。(荔枝新闻) 取款身亡老人家属称与银行达成和解 5月14日,湖南株洲一名62岁重病老人因急需取钱就医,被银行告知需本人到场后才能取款,在中国农业银行株洲田心支行办 理过程中,不幸意外去世。5月16日,老人家属彭先生告诉记者,已与银行方面达成和解。银行方面将负责老人的丧葬费用, 以慰问金的形式向家属支付10万元。(大河报) 胖东来官网恢复,本月销售额接近10亿元 华电新能 36氪获悉,证监会日前下发关于同意华电新能源集团股份有限公司首次公开发行股票注册的批复,同意该公司在上交所主板上 市的注册申请。 官方回应正新鸡排鸡腿大量生蛆 5月15日,贵州仁怀,有网友发布视频称,顾客购买正新鸡排的鸡腿后 ...
氪星晚报|“长三角AI生物医药产业联盟”正式成立;百度AI搜索上线首个基于百亿级内容库的DeepSearch;商务部、国家发展改革委修订发布《餐饮业促进和经营管理办法》
3 6 Ke· 2025-05-16 11:43
大公司: 抖音在江西成立笔绘墨影科技新公司,含电影摄制服务业务 36氪获悉,爱企查App显示,近日,江西笔绘墨影科技有限公司成立,法定代表人为乐力,注册资本 100万元人民币,经营范围包括电视剧制作、网络文化经营、广播电视节目制作经营、信息系统集成服 务、电影摄制服务等。股权穿透图显示,该公司由北京笔墨留香科技有限公司全资持股,后者为北京抖 音信息服务有限公司全资子公司。 高德地图与Rokid达成合作 36氪获悉,5月16日,高德地图与Rokid宣布达成合作,将共同推出基于全场景智能眼镜Rokid Glasses的 全球首个导航智能体(NaviAgent)应用,标志着高德Planner-Executor架构即将开启跨终端合作部署, 逐步构建起环绕出行和位置服务的空间智能生态体系。 飞象星球亮相2025世界数字教育大会 36氪获悉,5月14日,由教育部主办的2025年世界数字教育大会在武汉召开。作为国内首个系统化落地 的人工智能通识课程,飞象星球受邀亮相基础教育成果展台。据介绍,这是今年4月教育部等九部门印 发《关于加快推进教育数字化的意见》后,首个响应政策的教育数字化产品,课程贯穿中小学全学段, 在北京、重庆 ...