Memory Decoder: A Pretrained, Plug-and-PlayMemory for Large Language Models
Memory Decoder: A Pretrained, Plug-and-Play Memory for Large Language Models
1.概述
大型语言模型(LLMs)在广泛的自然语言处理任务中展示了显著的能力(Grattafiori 等人,2024;Yang 等人,2024;Liu 等人,2024;Guo 等人,2025)。通过在大量通用文本数据上进行预训练,LLMs 彻底改变了我们处理语言理解和生成任务的方式。然而,尽管它们具有令人印象深刻的通用能力,但将 LLMs 适应到特定领域以实现最佳性能仍然是一个重大挑战。在生物医学、金融和法律等专业领域进行特定领域的适应对于应用至关重要(Chen 等人,2023;Liu 等人,2023b;Colombo 等人,2024),其中领域专业知识和术语对于准确可靠的性能至关重要。
领域适应预训练语言模型的传统方法有几种,每种都有不同的优点和局限性。领域适应预训练(DAPT)涉及在特定领域语料库上继续预训练 LLM(Gururangan 等人,2020)。虽然有效,但这种方法由于全参数训练的大量计算成本而受到影响,尤其是当模型大小继续增长到数十亿参数时。此外,将多个模型适应到