论文略读:Do Large Language Models Truly Understand Geometric Structures?
ICLR 2025 668
几何能力对大型语言模型(LLMs)而言是一项重大挑战,因为它不仅要求模型具备高级的空间理解力,还涉及抽象思维能力。然而,现有的数据集大多只关注模型的最终答案,难以真正评估模型是否真正理解了几何结构,因为 LLM 可能只是巧合地得出了正确结果。
为弥补这一评估盲区,我们提出了 GeomRel 数据集,旨在通过隔离几何问题求解过程中的核心步骤——几何关系识别,更准确地评估 LLM 对几何结构的理解能力。
基于 GeomRel 基准,我们对多种 LLM 进行了系统评估,发现当前模型在理解几何结构方面仍存在显著局限性。为提升模型性能,我们进一步提出了 Geometry Chain-of-Thought(GeoCoT)方法,该方法引导模型在解题过程中明确推理几何关系,从而显著提升了模型的识别和推理能力。
GeoCoT 的引入不仅带来了显著的性能改进,也为提升 LLM 的空间推理能力提供了新的研究方向。