压缩上下文以提升大语言模型的推理效率
摘要
大型语言模型(LLMs)在各种任务中取得了显著的性能。然而,它们在处理长文档和长对话时面临挑战,因为这会显著增加内存和推理时间上的计算需求,并且在输入超过LLM固定上下文长度时可能导致上下文截断。本文提出了一种称为 Selective Context 的方法,通过识别并裁剪输入上下文中的冗余信息,使输入更加紧凑,从而提升LLM的推理效率。我们在需要长上下文处理的常见数据源上测试了该方法,包括 arXiv 论文、新闻文章和长对话,任务涵盖摘要生成、问答和响应生成。实验结果表明,Selective Context 能显著减少内存开销并降低生成延迟,同时在性能上与使用完整上下文时相当。具体而言,我们在上下文开销上减少了50%,推理内存使用减少了36%,推理时间减少了32%,而在四个下游任务中,BERTscore 仅下降 0.023,faithfulness 仅下降 0.038,表明我们的方法在效率和性能之间达到了良好的平衡。代码与数据开源于:https://github.com/liyucheng09/Selective_Context。
1 引言
大型语言模型(LLMs)在广泛的自然语言处理任务以及实际应用中展现了强大的能力和出色的泛化能力(Brown et al., 2020; Touvron et al., 2023; Bubeck et al., 2023)。然而,现有LLMs在处理更长上下文时面临重大挑战。在如长对话、文档摘要、基于长文档的问答等场景中,处理长上下文是基础需求。然而,这在计算上代价极
