多模态Deep Research，终于有了「可核验」的评测标准

Deep Research Agent 火了，但评测还停在「看起来很强」。写得像论文，不等于真的做了研究。尤其当证据来自图表、截图、论文图、示意图时：模型到底是「看懂了」，还是「编得像懂了」？俄亥俄州立大学与 Amazon Science 联合牵头，联合多家高校与机构研究者发布 MMDeepResearch-Bench（MMDR-Bench），试图把多模态 Deep Research 的评估从「读起来不错」，拉回到一个更硬的标准：过程可核验、证据可追溯、断言可对齐。 MMDR-Bench 与评测框架相关资源已公开：论文标题： MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents 论文主页：https://mmdeepresearch-bench.github.io/ 论文链接: https://arxiv.org/abs/2601.12346 github 链接：https://github.com/AIoT-MLSys-Lab/MMDeepResearch-Bench Huggingface 链 ...