大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”
PixelCraft团队 投稿 量子位 | 公众号 QbitAI 多模态大模型(MLLM)在自然图像上已取得显著进展,但当问题落在图表、几何草图、科研绘图等结构化图像上时,细小的感知误差会迅速 放大为推理偏差。 线性、刚性的"链式思考"流程也难以支撑复杂任务中必要的回溯与分支探索。 为此,微软亚洲研究院联合清华大学、香港科技大学提出 PixelCraft :以 高保真图像处理 与 非线性多智能体推理 为两大支柱,系统性提 升结构化图像理解的准确性、鲁棒性与可解释性,在多个图表与几何基准上给出一致的性能增益。 结构化图像的痛点与PixelCraft的切入 自然图像通常凭借纹理、局部模式等特征即可完成理解;而结构化图像把信息编码进坐标、数据点、连线与数值标注,要求模型在 像素级细 节 上建立可验证的"符号化抽象"。 在这样的场景中,传统只依赖文字CoT的方式往往牺牲了空间与结构细节。 "视觉CoT"虽然尝试插入中间图像线索,但受制于低保真的图像处理和简单的线性处理链条,这类方法在应对复杂真实问题时效果有限,这一 局限性也在CharXiv、ChartQAPro等更贴近真实场景的基准上得到体现。 PixelCraft ...