Workflow
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
量子位·2025-05-06 04:24

目前,BrowseComp-ZH的全部数据已开源发布。 研究团队直言: 为什么我们需要中文网页能力测试? 如今的大模型越来越擅长"用工具":能连搜索引擎、能调用插件、能"看网页"。 BrowseComp-ZH团队 投稿 量子位 | 公众号 QbitAI 你以为大模型已经能轻松"上网冲浪"了? 新基准测试集 BrowseComp-ZH 直接打脸主流AI。 BrowseComp-ZH是一项由 港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构 联合发布的新基准测试集,让20多个中外主流大模 型集体"挂科": GPT-4o在测试中准确率仅6.2% ;多数国产/国际模型准确率 跌破10% ;即便是目前表现最好的OpenAI DeepResearch, 也仅得42.9% 但众多评估工具都只在英文语境下建立,对中文语境、中文搜索引擎、中文平台生态考虑甚少。 然而,中文互联网信息碎片化严重、搜索入口多样、语言表达复杂。 中文网页世界到底有多难?举几个例子你就明白了: 因此,英文测试集"翻译一下"根本不够。 需要从中文语境原生设计,才能真正衡量大模型是否能在中文网页上"看得懂"、"搜得到"、"推得准"。 BrowseC ...