ARC挑战不适合大型模型?为什么题目中网格数量多,大模型表现
O3在ARC-AGI中超难推理任务的挑题目成就,确实给人类带来了许多震撼。战不中网
然而,适合在专门研究了它不能做的大型大模问题后,有了更有趣的模型发现——
o3之所以不做这些题,是格数因为也许不是因为太难,而是量多因为题目太大了。

来自英国的型表现ML工程师Mikel Bober-Irizar(不妨叫他米哥),仔细观察ARC题目。挑题目
结果米哥发现,战不中网题目中网格规模越大,大型模型的大型大模性能就越差。
而且不仅仅是模型o3,o1和o1 mini,格数还有隔壁的量多Claude,都出现了这种现象。

米哥的研究引起了人们对大模型工作机制的广泛讨论。
世界上第一位全职提示词工程师Riley Goodside看完之后,我也认为这是一项很好的研究。

大模型被困在网格规模中
或者先简单回顾一下ARC挑战,题目中有色块的网格阵列(颜色以文本形式表示,颜色以数字表示),大模型需要观察每个主题中的三个输入-输出示例,然后根据规则填充新的空白网格。

米哥发现,在ARC挑战中,规模越大,网格越多,大模型的性能就越差。
o3逃不过这样的魔咒,但与其他模型相比,o3的表现明显下降较晚,约1024个网格后(请记住这个位置,以后再谈)。

为了进一步验证这一发现,米哥还用o1-mini进行了实际测试。
在下图中,左右栏的标题乍一看似乎没有什么不同,但在右边,米哥切割了网格的细粒度,原来的网格被切割成4(2)×2)个。
结果原来能做对的题,切成小块后,o1-mini真的不起作用。

此外,米哥还统计了ARC数据集中的规模分布,结果恰好是1024个像素中规模最大的问题。
还记得o3成绩下降趋势突然变大的位置,正好在1024附近。

米哥认为,这是o3在ARC挑战中取得优异成绩的重要因素,而其他模型由于相应的小规模试题所占比例较小,成绩较差。
所以在米哥看来,ARC挑战并不能完全反映大模型的真实推理能力——许多模型被低估,o3被高估。
ARC挑战不适合大型模型?
那为什么题目中网格数量多,大模型表现不好呢?
先来看看米哥的分析。
米哥引用了纽约大学的一项研究结果(arXiv:2409.01374),这项研究发现,人类在挑战这样的问题时不会出现这种现象。
如果在人类和模型之间进行比较,o3的表现可以说是在规模较小的时候击败了人类,但是当规模较大的时候,获胜者就变成了人类。
这说明大模型在解决这类问题时,思维方式和人类还是有区别的。

当然,很明显,大模型在挑战ARC时看到的不是图像,而是以数字代表的矩阵,但区别不止于此。
面对ARC问题,即使用这种数字矩阵来表示,人类也能看到视觉信息,理解位置关系。

ARC是一个需要跨行和列推理的二维问题,但大模型在处理token时是以一维格式进行的。
这意味着当大型模型进行跨列推理时,需要结合较长的上下文信息。
随着网格的扩大,模型需要推理更长的上下文,并且必须组合和推理相距较远的数字。
米哥曾与剑桥大学高级研究员Soumyaya Banerjeee之前进行的一项研究(arXiv:2402.03507)表明,通过90度旋转矩阵,模型基于行和列进行推理,是直接问题的两倍。

因此米哥认为,是观察问题的维度影响了大型模型的表现,ARC这一任务并不适合大型模型。
他还说,他在NeurIPS上听到了一个很好的类比——
将二维ARC任务交给大模型,就像期待人类在四维空间中推理一样。
与此同时,网友们也指出,视觉仍然是一个重要因素,尽管它本质上涉及到维度差异。
想象一下,如果人们没有视觉能力,仅仅通过听或其他方式获取网格信息,就很难直接构建二维矩阵。

但说到这里,即使模型有“视觉”能力,也会将视觉信息转化为Token,这可能与人类的视觉不一样。

网民认为,真正的视觉需要能够处理并行输入的信息,而不是一个接一个地串行输入,二进制IO数据流可能是一个解决方案。

One More Thing
根据ARC挑战官方的说法,ARC-下一代ARCC-AGI-2即将推出。
早期测试表明,它将对o3构成重大挑战——
即使在高计算模式下,o3的得分也可能降低到30%以下(聪明人仍能得分超过95%)。
来源:量子位







