当前位置：首页 > news >正文

【AI论文】未睹先察：揭示语言预训练赋予大语言模型视觉先验知识的奥秘

news 2025/10/8 13:16:46

摘要：尽管大型语言模型（LLMs）仅基于文本数据进行训练，但令人惊讶的是，它们却发展出了丰富的视觉先验知识。这些先验知识使得模型仅需相对少量的多模态数据，便能解锁潜在的视觉能力以应对视觉任务；在某些情况下，甚至无需接触任何图像即可执行视觉任务。通过系统性分析，我们发现视觉先验知识——即在语言预训练过程中隐式获得的关于视觉世界的涌现知识——由可分离的感知先验和推理先验组成，二者具有独特的扩展趋势和来源。研究表明，大型语言模型潜在的视觉推理能力主要通过以推理为中心的数据（如代码、数学、学术文本）预训练发展而来，且该能力随训练逐步增强。这种从语言预训练中获得的推理先验具有可迁移性，可普遍应用于视觉推理任务。相比之下，感知先验则更广泛地源自多样化语料库，且感知能力对视觉编码器和视觉指令微调数据更为敏感。与此同时，描述视觉世界的文本虽至关重要，但其对性能的影响会迅速达到饱和。基于上述发现，我们提出了一种以数据为中心的预训练方法，用于培养具备视觉感知能力的大型语言模型，并在包含1万亿标记的预训练规模中进行了验证。我们的研究基于超过100项受控实验，这些实验消耗了50万GPU小时，覆盖了从大型语言模型预训练到视觉对齐、监督多模态微调的整个多模态大型语言模型（MLLM）构建流程，涉及五种模型规模、广泛的数据类别与混合方式，以及多种适配设置。除主要发现外，我们还提出并验证了若干假设，并引入了多层级存在性基准测试（Multi-Level Existence Bench，MLE-Bench）。本研究为从语言预训练中系统性培育视觉先验知识提供了新思路，为下一代多模态大型语言模型的发展奠定了基础。Huggingface链接：Paper page，论文链接：2509.26625

研究背景和目的

研究背景：

随着大型语言模型（LLMs）在自然语言处理领域的广泛应用，研究者们逐渐发现，尽管这些模型主要基于文本数据进行训练，但它们似乎能够隐式地掌握一定的视觉知识，即“视觉先验”（visual priors）。这种视觉先验使得LLMs能够在没有见过任何图像的情况下，完成一些视觉任务，如生成描述视觉场景的代码或进行简单的视觉推理。

然而，这种隐式的视觉能力是如何形成的，以及如何更有效地利用这些先验来提升多模态模型（MLLMs）的性能，仍然是未解之谜。

现有的研究多集中于通过大规模的多模态数据预训练来提升MLLMs的性能，但这种方法往往需要大量的计算资源和数据，且效果受限于多模态对齐的质量。

相比之下，利用LLMs在文本预训练过程中获得的视觉先验，可能是一种更为高效和通用的方法。因此，深入探究LLMs中的视觉先验，并探索如何有效地利用这些先验，对于推动多模态模型的发展具有重要意义。

研究目的：

本研究旨在系统地分析和揭示LLMs在文本预训练过程中获得的视觉先验的组成、来源及其对多模态任务的影响。

具体目标包括：