Loop-ViT：让AI学会「反复思考」，3.8M参数小模型追平人类平均水平

当我们解一道复杂的数学题或观察一幅抽象图案时，大脑往往需要反复思考、逐步推演。然而，当前主流的深度学习模型却走的是「一次通过」的路线—— 输入数据，经过固定层数的网络，直接输出答案。这种前馈式架构在图像分类等感知任务上表现出色，但面对需要多步推理的抽象问题时，却显得力不从心。最典型的例子就是「ARC-AGI 基准测试」 ——一个被认为是衡量 AI 抽象推理能力的「试金石」。近日，来自香港科技大学、中科院自动化所、UC Santa Cruz 的研究团队提出了「 Loop-ViT 」，首次将循环 Transformer 引入视觉推理领域。这个仅有 18M 参数的模型，在 ARC-AGI-1 基准上达到了「65.8%」的准确率，超越了参数量高达 73M 的 VARC 集成模型。更令人惊讶的是，其 3.8M 的小型版本也能达到 60.1% 的准确率，几乎追平人类平均水平（60.2%）。什么是 ARC-AGI？为什么它如此困难？ ARC-AGI（Abstraction and Reasoning Corpus）是由 Keras 之父 François Chollet 提出的抽象推理基准。与 Image ...