多模态Deep Research,终于有了「可核验」的评测标准
机器之心·2026-02-14 07:32

Deep Research Agent 火了,但评测还停在「 看起来很强 」。 写得像论文,不等于真的做了研究。 尤其当证据来自图表、截图、论文图、示意图时:模型到底是「 看懂了」,还是 「 编得像懂了」? 俄亥俄州立大学与 Amazon Science 联合牵头,联合多家高校与机构研究者发布 MMDeepResearch-Bench(MMDR-Bench) ,试图把多模态 Deep Research 的评估 从「 读起来不错」,拉回到一个更硬的标准: 过程可核验、证据可追溯、断言可对齐 。 MMDR-Bench 与评测框架相关资源已公开: 论文标题: MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents 论文主页:https://mmdeepresearch-bench.github.io/ 论文链接: https://arxiv.org/abs/2601.12346 github 链接:https://github.com/AIoT-MLSys-Lab/MMDeepResearch-Bench Huggingface 链 ...

多模态Deep Research,终于有了「可核验」的评测标准 - Reportify