复旦:LLM知识问答任务性能预测
📖标题:Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training
🌐来源:arXiv, 2502.04066
🌟摘要
🔸OpenAI的GPT-4技术报告表明,在训练之前可以预测特定任务的模型性能,尽管方法论尚未明确。这种方法对于优化资源分配和确保数据与目标任务保持一致至关重要。
🔸为了实现这一愿景,我们专注于预测闭书问答(CBQA)任务的性能,这些任务与预训练数据和知识记忆密切相关。我们应对三大挑战:1)掌握整个预训练过程,特别是数据构建;2) 评估模型的知识保留;以及3)仅使用训练前可用的信息来预测特定任务的知识保留。为了应对这些挑战,我们使用56万美元和52万GPU小时预训练了三个大型语言模型(即1.6B、7B和13B)。我们使用知识三元组分析预训练数据,并使用既定方法评估知识记忆。此外,我们引入了SMI度量,这是一种信息论度量,量化了预训练数据、模型大小和特定任务知识保留之间的关系。
🔸我们的实验表明,在不同大小的模型(即1.1B、1.6B、7B和13B)中,SMI度量与模型在CBQA任务上的准确性之间存在很强的线性相关性(R2>0.84)。数据集、模型和代码在https://github.com/yuhui1038/SMI.
🛎️文章简介
🔸研究问题:如何在预训练之前仅利用可用信息,预测大语言模型(LLM)在闭卷问答(CBQA)任务上的能力?
🔸主要贡献:论文提出了一种信息论方法,并引入了SMI指标来反映模型在特定任务上的知识保留能力。
📝重点思路
🔸构建一个包含1.5万亿个高质量预训练数据的评估集,专注于CBQA任务。
🔸采用多模板补全机制来准确评估模型对知识三元组的记忆能力。
🔸从预训练数据中检索知识三元组,并引入SMI指标表示三元组的信息度量。
🔸使用线性回归建立SMI与模型在CBQA任务上准确率(ACC)之间的预测方程,并计算R²和均方误差(MSE)来评估预测性能。
🔎分析总结
🔸SMI指标与不同规模模型(如1.1B、1.6B、7B和13B)在CBQA任务上的准确率之间存在强线性相关性,R²值超过0.84。
🔸使用多模板补全机制评估的记忆水平与模型实际的CBQA任务表现密切相关,且在微调后,记忆水平的分布与模型的性能表现强相关。
🔸知识的特异性而非仅仅是发生频率对模型的知识记忆能力影响更大,强调了在下游任务训练中优化知识分布的重要性。
💡个人观点
论文的核心是基于信息论方法度量三元组知识保留,通过指标和实际准确率的映射关系进行预测。
🧩附录