【论文阅读】Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
本文为在下游自然语言处理(NLP)任务中使用大语言模型(LLMs)的从业者与终端用户,提供了一份全面且实用的指南。我们将从模型、数据和下游任务三个维度,探讨 LLMs 的使用方法并分享相关见解。首先,我们将对当前主流的 GPT 类与 BERT 类大语言模型进行介绍和简要概述;其次,分析预训练数据、训练(微调)数据及测试数据对 LLMs 的影响;最重要的是,我们将针对各类自然语言处理任务(如知识密集型任务、传统自然语言理解任务、自然语言生成任务),以及 LLMs 的涌现能力和特定任务的注意事项,详细探讨 LLMs 的适用场景与不适用场景,并通过具体案例说明 LLMs 在实际应用中的价值与局限性。同时,我们还将剖析数据的重要性及各类 NLP 任务面临的特定挑战;此外,我们会研究虚假偏差(spurious biases)对 LLMs 的影响,并深入探讨效率、成本、延迟等关键落地因素,以帮助读者全面理解 LLMs 的实际部署要点。
本指南旨在为研究者与从业者提供 LLMs 应用的宝贵见解与最佳实践,助力 LLMs 在各类 NLP 任务中成功落地。文中提及的 LLMs 实用指南资源精选列表会定期更新,可通过链接访问:https://github.com/Mooler0410/LLMsPracticalGuide 。
1 INTRODUCTION
近年来,大语言模型(Large Language Models, LLMs)的快速发展正在彻底改变自然语言处理(natural language processing, NLP)领域 [12, 128, 131]。这类功能强大的模型在应对各类 NLP 任务中展现出巨大潜力,其应用范围涵盖从自然语言理解(natural language understanding, NLU)到自然语言生成的各类任务,甚至为通用人工智能(Artificial General Intelligence, AGI)的发展奠定了基础。然而,要高效且有效地运用这些模型,不仅需要实际了解它们的能力与局限性,还需熟悉 NLP 领域涉及的数据与具体任务。
为了给分区者和最终用户提供指导,本工作侧重于在下游NLP任务中使用llm的实际方面。本指南旨在提供关于为什么或为什么不为给定任务选择LLM的实用建议,以及如何选择最合适的LLM的指导,同时考虑到模型大小,计算需求和特定领域预训练模型的可用性等因素。这项工作从实践的角度提供了对llms的透彻理解,因此,为从业者和最终用户提供了成功利用llms的力量完成自己的NLP任务所需的实践知识。
本文的结构如下:首先,通过探讨当前最重要的模型(如 GPT 类和解码器架构、BERT 类和编码器 / 编码器 - 解码器架构),对大语言模型(LLMs)进行简要介绍;其次,从数据视角深入分析影响模型性能的关键因素,包括预训练数据、训练 / 微调数据以及测试数据;最后也是最重要的是,我们将深入研究各类具体的自然语言处理(NLP)任务,剖析 LLMs 在知识密集型任务、传统自然语言理解(NLU)任务、自然语言生成任务中的适用性,同时探讨这些模型所具备的涌现能力以及在复杂真实场景中面临的挑战,并通过详细案例阐明 LLMs 在实际应用中的成功场景与局限性。
为分析大语言模型(LLMs)的能力,我们将其与微调模型(fine-tuned models)进行对比。目前,学界尚未对大语言模型与微调模型形成公认定义。基于实用价值考量,本文提出如下定义:大语言模型是在海量数据集上预训练而成的超大规模语言模型,无需针对特定任务的数据集进行调优;微调模型通常是规模较小的语言模型,同样经过预训练流程,后续会在规模更小的特定任务数据集上进一步调优,以优化其在该任务上的性能 。
本研究总结了使用大语言模型(LLMs)的以下主要实用指南:
自然语言理解:当面临分布外数据(out-of-distribution data)或训练数据极少的情况时,可利用大语言模型(LLMs)卓越的泛化能力。
自然语言生成:利用大语言模型(LLMs)的能力,为各类应用生成连贯、上下文相关且高质量的文本。
知识密集型任务:对于需要领域专业知识或通用世界知识的任务,可借助大语言模型(LLMs)中存储的海量知识。
推理能力:理解并利用大语言模型(LLMs)的推理能力,以提升各类场景下的决策与问题解决效率。
2 PRACTICAL GUIDE FOR MODELS
本节简要介绍了最先进的llm。这些模型在训练策略、模型架构和用例方面有所不同。为了提供对LLM前景的更清晰的理解,我们将它们分为两种类型:编码器-解码器或仅编码器语言模型和仅解码器语言模型。在图1中,我们展示了语言模型的详细演化过程。从进化树来看,我们有以下有趣的观察:
a)仅解码器型模型已逐渐主导大语言模型(LLMs)的发展进程。在大语言模型发展初期,仅解码器型模型的普及度不及仅编码器型与编码器 - 解码器型模型。然而,2021 年后,随着具有变革性意义的大语言模型 ——GPT-3 的问世,仅解码器型模型迎来了爆发式增长。与此同时,仅编码器型模型在经历了由 BERT 带来的初期爆发式增长后,其影响力便逐渐减弱。

图 1 现代大语言模型(LLMs)演化树:追溯了近年来语言模型的发展历程,并重点标注了部分最知名的模型。同一分支上的模型具有更紧密的技术关联。基于 Transformer 架构的模型以非灰色显示,其中:仅解码器型模型位于蓝色分支,仅编码器型模型位于粉色分支,编码器 - 解码器型模型位于绿色分支。模型在时间轴上的垂直位置代表其发布日期;开源模型用实心方块表示,闭源模型用空心方块表示。右下角的堆叠条形图展示了不同公司及机构所研发的模型数量。
b)无论是当前还是未来可预见的时期,OpenAI 在大语言模型(LLM)领域始终保持领先地位。其他公司与机构在研发可与 GPT-3 及当前 GPT-4 相媲美的模型时,仍难以追上 OpenAI 的步伐。OpenAI 的这一领先地位,或许要归功于其对自身技术路线的坚定坚持 —— 即便在该路线最初未获得广泛认可时亦是如此。
c)Meta(元宇宙公司)在开源大语言模型(LLMs)领域贡献卓著,同时推动了大语言模型的相关研究。若论及对开源社区的贡献,尤其是在大语言模型相关贡献方面,Meta 堪称最慷慨的商业公司之一 —— 因其研发的所有大语言模型均为开源模型。
d)llms表现出封闭源码的趋势。在LLM开发的早期阶段(2020年之前),大多数模型都是开源的。然而,随着GPT-3的引入,越来越多的公司选择封闭他们的模型,如PaLM, LaMDA和GPT-4。因此,学术研究人员进行llms培训的实验变得更加困难。因此,基于api的研究可能成为学术界的主导方法。

e)编码器-解码器模型仍然很有前途,因为这种类型的架构仍在积极探索中,而且大多数都是开源的。谷歌对开源编码器-解码器架构做出了重大贡献。然而,仅解码器模型的灵活性和多功能性似乎使谷歌坚持这一方向的希望渺茫。
我们也在表1中简要总结了各类型llms的特点和代表性。
2.1 BERT-style Language Models: Encoder-Decoder or Encoder-only
由于自然语言数据很容易获得,并且已经提出了无监督训练范式来更好地利用超大数据集,这激发了自然语言的无监督学习。一种常见的方法是在考虑周围环境的同时预测句子中的掩蔽词。这种训练模式被称为隐藏语言模型。这种类型的训练允许模型对单词和使用它们的上下文之间的关系有更深的理解。这些模型使用Transformer架构等技术在大量文本语料库上进行训练,并在许多NLP任务中取得了最先进的结果,例如情感分析和命名实体识别。蒙面语言模型的著名例子包括BERT b[28]、RoBERTa[65]和T5[84]。MLMs已成为自然语言处理领域的一个重要工具,因为它在广泛的任务中取得了成功。
2.2 GPT-style Language Models: Decoder-only
尽管语言模型在架构上通常与任务无关,但这类方法仍需在特定下游任务的数据集上进行微调。研究人员发现,扩大语言模型的规模(如增加参数数量、扩大训练数据量等)能显著提升其少样本(few-shot)甚至零样本(zero-shot)性能 [16]。在提升少样本和零样本性能方面,表现最出色的是自回归语言模型(Autoregressive Language Models)—— 这类模型的训练方式是:给定序列中的前文内容,预测下一个单词。
自回归语言模型已被广泛应用于文本生成、问答等下游任务,其典型示例包括 GPT-3 [16]、OPT [126]、PaLM [22] 和 BLOOM [92]。其中,具有 “变革性意义” 的 GPT-3 首次通过提示工程(prompting)和上下文学习(in-context learning)展现出了良好的少样本 / 零样本性能,从而印证了自回归语言模型的优越性。此外,还存在诸如 CodeX [2] 这类(针对特定领域优化的)模型(CodeX 是专门针对代码生成任务优化的自回归语言模型)。
(这类模型中)有些是针对特定任务优化的,例如专门用于代码生成的 CodeX [2],以及面向金融领域的 BloombergGPT [117]。近期的突破性进展是 ChatGPT—— 它在 GPT-3 的基础上进行了针对性改进,使其更适配对话类任务,最终能在各类实际应用场景中实现更具交互性、连贯性且上下文感知能力更强的对话效果
3 PRACTICAL GUIDE FOR DATA
在本节中,我们将讨论数据在为下游任务选择适当模型时所起的关键作用。数据对模型有效性的影响从预训练阶段开始,一直持续到训练和推理阶段。
注释1(1)在面对分布外数据的下游任务中,llm比微调模型有更好的泛化能力,例如对抗性示例和领域转移。(2)在有限的标注数据下,llm优于微调模型;在标注数据丰富的情况下,根据具体的任务需求,llm和微调模型都是合理的选择。(3)建议选择在与下游任务相似的数据字段上预训练的模型。
3.1 Pretraining data
预训练数据在大型语言模型的开发中起着关键作用。作为llm卓越能力的基础[5,47],预训练数据的质量、数量和多样性显著影响llm的性能[124]。常用的预训练数据由无数的文本来源组成,包括书籍、文章和网站。这些数据经过精心整理,以确保全面代表人类知识、语言细微差别和文化观点。预训练数据的重要性在于,它能够为语言模型提供对单词知识、语法、句法和语义的丰富理解,以及识别上下文和生成连贯响应的能力。预训练数据的多样性在塑造模型的性能方面也起着至关重要的作用,llm的选择高度依赖于预训练数据的组成部分。例如,PaLM[22]和BLOOM[92]在多语言任务和机器翻译方面表现出色,具有丰富的多语言预训练数据。此外,通过整合大量的社交媒体对话和图书语料库[22],PaLM在问答任务中的性能得到了提高。同样,GPT-3.5 (code- davincii -002)的代码执行和代码完成能力通过在其预训练数据集中集成代码数据而得到增强。简而言之,在为下游任务选择llm时,建议选择在类似数据领域上预训练的模型。
3.2 Finetuning data
在为下游任务部署模型时,有必要根据注释数据的可用性考虑三种主要场景:零、少量和大量。在本节中,我们简要概述了每个场景要使用的适当模型。
零标注数据(场景)
在无法获取标注数据的场景下,以零样本(zero-shot)模式使用大语言模型(LLMs)被证明是最合适的方法。已有研究表明,大语言模型的性能优于以往的零样本方法 [120]。此外,由于该模式下不存在参数更新过程,语言模型的参数保持不变,这就确保了可避免 “灾难性遗忘”(catastrophic forgetting)[49] 的问题。
少标注数据(场景)
在少标注数据的场景下,少样本示例会直接嵌入到大语言模型(LLMs)的输入提示(prompt)中,这种方式被称为上下文学习(in-context learning)。这些示例能有效引导大语言模型实现对任务的泛化。正如文献 [16] 所报道的,(大语言模型在)单样本(one-shot)和少样本(few-shot)任务中的性能有显著提升,甚至可媲美当前最优(SOTA)的微调开放域模型。此外,通过扩大模型规模(scaling),大语言模型的零样本 / 少样本能力还能进一步提升 [16]。
与之相对,也有研究人员提出了一些少样本学习方法来优化微调模型(fine-tuned models),例如元学习(meta-learning)[56] 或迁移学习(transfer learning)[88]。但由于微调模型规模较小且易出现过拟合(overfitting)问题,其性能往往不及大语言模型。
充足标注数据(场景)
当某一特定任务拥有大量标注数据时,微调模型(fine-tuned models)和大语言模型(LLMs)均可供选择。在多数情况下,对模型进行微调能很好地适配数据。不过,若需满足隐私等特定约束条件,大语言模型则会成为适用选择 [99]。在此场景下,选择使用微调模型还是大语言模型,需结合具体任务而定,同时还取决于多个因素,包括期望性能、计算资源以及部署约束条件。
简而言之:就数据可得性而言,大语言模型(LLMs)的通用性更强;而当存在大量标注数据时,则可考虑使用微调模型(fine-tuned models)
3.3 Test data/user data
在将大语言模型(LLMs)部署于下游任务时,我们常会面临因测试 / 用户数据与训练数据之间的分布差异而引发的挑战。这些差异可能包括领域偏移 [132]、分布外变异 [31],甚至对抗性样本 [82]。此类挑战会严重影响微调模型在实际应用中的有效性 —— 由于微调模型仅适配特定的数据分布,其对分布外(OOD)数据的泛化能力较差。
然而,大语言模型在这类场景下表现却十分出色,原因在于其不存在显式的拟合过程。此外,近年来的技术进展进一步提升了语言模型在该方面的能力:基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)方法显著增强了大语言模型的泛化能力 [77]。例如,InstructGPT 能够熟练遵循各类任务的不同指令,即便在不同语言指令数量稀少的情况下,也能偶尔完成指令要求;与之类似,ChatGPT 在大多数对抗性任务及分布外(OOD)分类、翻译任务中,均展现出稳定的优势 [109]。其在对话相关文本理解上的优越性,使其在 DDXPlus 数据集 [101](一个专为分布外评估设计的医学诊断数据集)上取得了亮眼的表现。
4 PRACTICAL GUIDE FOR NLP TASKS
在本节中,我们将详细探讨大语言模型(LLMs)在各类下游自然语言处理(NLP)任务中的适用场景与不适用场景,以及模型对应的能力表现。此外,我们在图 2(Figure 2)中将所有讨论内容归纳为一个决策流程,该流程可作为面对具体任务时快速做出选择的参考指南。
4.1 Traditional NLU tasks
传统自然语言理解(NLU)任务是自然语言处理(NLP)领域的一类基础任务,包括文本分类、命名实体识别(NER)、蕴含预测等。这类任务中,有许多被设计为大型人工智能(AI)系统的中间步骤,例如在知识图谱构建过程中会用到命名实体识别(NER)技术。

图 2 为用户自然语言处理(NLP)应用选择大语言模型(LLMs)或微调模型的决策流程
该决策流程可帮助用户评估其当前面临的下游自然语言处理应用是否满足特定条件,并基于该评估结果,确定大语言模型或微调模型哪一种更适合其应用场景。在图中的决策过程中,“Y” 代表满足条件,“N” 代表不满足条件。最后一个条件中,标记为 “Y” 的黄色圆圈表示,对于该类应用,目前尚无模型能实现良好的效果。
注释 2在传统的NLU任务中,微调模型通常是比llm更好的选择,但llm可以提供帮助,但需要较强的泛化能力。
4.1.1 不适用场景
在大多数自然语言理解任务中(例如 GLUE [106] 和 SuperGLUE [105] 中的任务),若这些任务拥有丰富且标注质量高的数据,且测试集中分布外(out-of-distribution)样本极少,那么微调模型(fine-tuned models)的性能仍会更优。对于不同的任务与数据集,小型微调模型与大语言模型(LLMs)之间的性能差距存在差异。
在文本分类任务中,多数数据集上的大语言模型(LLMs)性能略逊于微调模型(fine-tuned models)。在情感分析任务中(例如基于 IMDB [69] 和 SST [94] 数据集的任务),微调模型与大语言模型的表现相当。而在毒性检测这一另具代表性的文本分类任务中,二者的性能差距则显著更大:所有大语言模型在该任务上的表现均不理想,在 CivilComments [13] 数据集上,即便是表现最佳的大语言模型,其性能也仅略优于随机猜测 [59]。
与之相反,多数主流微调模型在该任务上能取得远更优的性能 [33],且 Perspective API³ 仍是目前毒性检测效果最佳的工具之一。该 API 由一个基于 BERT 的多语言模型提供技术支持,该模型先在公开可得的毒性数据上进行了微调,同时还集成了从该模型中蒸馏(distilled)出的多个小型单语言卷积神经网络(CNNs)。
这种性能差异的成因可能在于:毒性的定义依赖于语言表达中的细微差异,而大语言模型仅依靠给定的输入,无法精准理解并完成这类任务
在其他一些任务中,表现差距的趋势也是类似的。对于自然语言推理(NLI)任务,在大多数数据集上,如RTE[106]和SNLI[14],微调模型比llm表现更好,而在CB[105]等一些数据上,llm获得了与微调模型[22]相当的性能。对于问答(QA),在SQuADv2[86]、QuAC[21]和许多其他数据集上,微调模型具有优越的性能,而在CoQA[87]上,llm的性能与微调模型[22]一样好。
在信息检索(IR)任务中,大语言模型(LLMs)尚未得到广泛应用。一个主要原因是,信息检索任务与其他任务存在本质差异:目前尚无自然的方法能将数千个候选文本转换为大语言模型所需的少样本 / 零样本形式。
基于 MS MARCO(常规版 / TREC 版)[73] 数据集的现有评估结果显示,基于微调模型(fine-tuned models)的方法性能更优 [59]。在该评估中,大语言模型采用了一种非常规的段落排序方式 —— 这种方式要求大语言模型逐个为段落生成概率(再基于概率排序)。
对于部分底层中间任务(这类任务并非面向普通用户,而是服务于高层任务),例如命名实体识别(NER)和依存句法分析,目前关于大语言模型(LLMs)的相关研究结果尚不充分。这是因为当前对大语言模型的评估大多聚焦于实际应用任务,而非此类中间任务。
根据现有评估结果,在命名实体识别(NER)任务中,CoNLL03 数据集 [89] 对大语言模型而言仍是一项挑战 [81]—— 在该数据集上,微调模型(fine-tuned models)的性能约为大语言模型的两倍。不过,这类中间任务或许很快会逐渐消失,因为大语言模型无需依赖这些中间任务,就能直接完成高层任务(例如,在代码相关任务中无需借助依存句法分析,在部分文本生成任务中无需借助命名实体识别)。
简而言之,对于大多数传统自然语言理解(NLU)任务,从基准数据集上的性能表现和计算成本两方面来看,微调模型(fine-tuned models)都是更优选择。大语言模型(LLMs)的规模通常是微调模型的 10 倍,甚至 100 倍。
大语言模型在某些任务上性能欠佳,一个可能的原因在于指令 / 提示词(instructions/prompts)的设计问题:将信息检索(IR)、句子标注等任务的输入转化为少样本 / 零样本指令形式,并非易事。未来或许会出现更优的方法,让语言模型更好地适配传统自然语言处理(NLP)任务。
另一方面,微调模型的能力上限尚未达到,诸如 FLAN 微调(FLAN-tuning)[67] 等方法仍能进一步提升其在自然语言理解任务上的性能。此外,一项有趣的研究发现是:在自然语言理解任务中,经过微调后,像 T5 [85] 这样的掩码语言模型(masked language models),在规模相同的情况下,性能优于大多数自回归语言模型(auto-regressive language models);但近期的部分研究结果表明,这一性能差距可通过扩大模型规模来缩小 [22]。
4.1.2 Use case. However, there are still some NLU tasks suitable for LLMs.
其中一项代表性任务是混合文本分类 [59]。与情感分析这类经典的特定领域文本分类任务不同,混合文本分类涉及的主题和类别范围广泛,且这些主题与类别之间可能不存在清晰或紧密的关联。该任务更贴近现实场景,但难以调整格式以适配微调模型(fine-tuned models)的使用需求。
另一项(适用任务)是对抗性自然语言推理(Adversarial NLI, ANLI)[74]。这是一个具有挑战性的数据集,由三轮(R1、R2、R3)通过对抗性挖掘生成的自然语言推理问题构成。大语言模型(LLMs)在 ANLI 数据集上展现出了优越性能,尤其在 R2 和 R3 轮次中表现突出。
这两个例子均表明,在传统自然语言处理(NLP)任务中,面对分布外(out-of-distribution)数据和标注稀疏的数据时,大语言模型具有出色的泛化能力,且该能力超过了微调模型。关于这一点,我们已在 3.3 节中进行过讨论。
4.2 Generation tasks
自然语言生成(Natural Language Generation, NLG)广泛涵盖两大类任务,其目标是生成连贯、有意义且符合上下文的符号序列。
第一类任务聚焦于将输入文本转换为新的符号序列,段落摘要、机器翻译等任务均属此类(例如,将一篇长文档浓缩为摘要,或把中文文本翻译成英文)。第二类任务为 “开放式” 生成,旨在从零开始生成文本或符号,以精准匹配输入描述 —— 例如撰写邮件、撰写新闻稿、创作虚构故事以及编写代码等。
注释三:得益于强大的生成能力与创造力,大语言模型(LLMs)在大多数生成任务中展现出优越性。
4.2.1 适用场景
生成任务要求模型对输入内容或需求具备全面的理解能力,并拥有一定水平的创造力。而这正是大语言模型(LLMs)所擅长的领域。
在摘要生成任务中,尽管在 Rouge [60] 等传统自动评估指标下,大语言模型(LLMs)相较于微调模型(fine-tuned models)并无明显优势,但人工评估结果表明,与微调模型生成的结果相比,人类更倾向于偏好大语言模型生成的结果 [38, 127]。
例如,在 CNN/DailyMail [71] 和 XSUM [72] 这两个数据集上,从 Rouge 指标来看,Brio [66]、Pegasus [125] 等微调模型的性能远优于所有大语言模型;然而,从真实性、连贯性、相关性等各方面综合考量的人工评估结果显示,OPT [126] 等大语言模型的表现要出色得多 [127]。这一现象既体现了大语言模型在摘要生成任务中的优越性,也从侧面表明,当前的摘要生成基准数据集要么未包含高质量摘要,要么所使用的自动评估指标并不适合用于摘要生成任务的性能评估。
在机器翻译(MT)领域,大语言模型(LLMs)能够实现合格的翻译效果。不过,若参考 BLEU [78] 等自动评估指标,其平均性能略逊于部分商业翻译工具 [45]。
大语言模型在 “低资源语言文本译成英文” 这类任务中表现尤为突出。例如在 WMT’16 数据集的罗马尼亚语 - 英语翻译任务中 [11],采用零样本或少样本模式的大语言模型,性能可优于当前最优(SOTA)的微调模型 [22]。这主要是因为英文资源在大语言模型的预训练数据中占比极高。
BLOOM [92] 这款大语言模型的预训练数据包含了更多多语言素材,因此在 “高资源语言翻译” 和 “低资源语言翻译” 任务中均能实现更优的翻译质量。另有一项有趣的研究发现:BLOOM 在罗曼语族内部语言的互译任务中表现出色,即便面对 “加利西亚语翻译” 这类场景(加利西亚语并未包含在其预训练数据中),也能达到较好的翻译质量。对此,一种合理的解释是:同一语族内部分语言的文本素材,可帮助大语言模型借助 “语言相似性” 学习更多翻译规律。若能在预训练数据中加入更多多语言文本,大语言模型的翻译能力或许能得到进一步提升。
此外,大语言模型(LLMs)在开放式生成任务中表现极为出色。例如,由大语言模型生成的新闻稿,在人类看来几乎难以与真实新闻稿区分 [16]。
大语言模型在代码生成方面同样具备卓越能力:无论是 “文本到代码生成” 任务(如基于 HumanEval [18]、MBPP [7] 数据集的任务),还是 “代码修复” 任务(如基于 DeepFix [39] 数据集的任务),大语言模型都能展现出优异性能。其中,GPT-4 甚至能解决 Leetcode 平台上 25% 的题目 —— 这些题目对大多数人类程序员而言都并非易事 [76]。若对大语言模型进行更多代码数据的训练,其编码能力有望得到进一步提升 [22]。
不过,尽管大语言模型在这类任务中表现出色,但其生成的代码仍需经过仔细测试,以排查潜在的细微漏洞 —— 这也是将大语言模型应用于代码生成领域时面临的主要挑战之一
4.2.2 不适用场景
在大多数高资源语言翻译任务和极低频资源语言翻译任务中,DeltaLM+Zcode [118] 等微调模型(fine-tuned models)的性能仍处于最优水平。
在高资源语言机器翻译任务中,微调模型的性能略优于大语言模型(LLMs)[22, 92];而在极低频资源语言机器翻译任务(如英语 - 哈萨克语翻译)中,微调模型的性能则显著优于大语言模型。
4.3 Knowledge-intensive tasks
知识密集型自然语言处理(NLP)任务,指的是一类高度依赖背景知识、特定领域专业知识或通用现实世界知识的任务。这类任务并非局限于简单的模式识别或句法分析,而是在很大程度上依赖于对特定实体、事件以及现实世界常识性知识的记忆与合理运用。
注释4(1)llms擅长知识密集型任务,因为他们拥有丰富的现实世界知识。(2)当知识需求与所学知识不匹配时,或者当他们面临只需要上下文知识的任务时,llm会遇到困难,在这种情况下,微调模型可以像llm一样有效。
4.3.1 适用场景
总体而言,由于拥有数十亿的训练 tokens 和参数,大语言模型(LLMs)所掌握的现实世界知识远比微调模型(fine-tuned models)更为丰富。
闭卷问答任务要求模型在不借助任何外部信息的情况下,回答与事实性知识相关的给定问题。这类任务确实需要模型内部存储现实世界知识。
大语言模型(LLMs)在几乎所有相关数据集上的表现都更为出色,例如在 NaturalQuestions [52]、WebQuestions [9] 和 TriviaQA [46] 等数据集上。其中,在 TriviaQA 数据集上,即便是采用零样本模式的大语言模型,性能依旧远超(其他模型)[22]。
大规模多任务语言理解(MMLU)[40] 同样属于高度知识密集型任务。该任务包含涵盖 57 个不同学科的多项选择题,要求模型具备通用知识储备。即便对于大语言模型(LLMs)而言,这一任务也颇具挑战性 —— 不过,新发布的 GPT-4 [76] 在英文版本的 MMLU 任务中表现远超现有其他模型,以 86.5% 的准确率取得了令人满意的成绩。
此外,Big-bench [96] 中的部分任务(设计这些任务的目的是探究大语言模型(LLMs)的能力并推断其未来潜力)也高度依赖对现实世界知识的记忆。在这类任务中,部分大语言模型的表现不仅超过了人类平均水平,甚至可与人类最佳表现相媲美。
例如,“Hindu_knowledge”(印度教知识)任务要求模型给出与印度教神话相关的事实信息;“Periodic Elements”(元素周期表)任务要求模型具备根据元素周期表推测元素名称的能力;而 “Physics”(物理学)任务则通过要求模型给出解决特定物理问题所需的公式,来测试其物理学知识储备。
4.3.2 不适用场景
存在一些其他任务,其所需的知识与大语言模型(LLMs)已学习的知识不同。这类任务所需的知识,并非大语言模型所掌握的关于现实世界的知识。因此,在这类任务中,大语言模型并未展现出明显的优势。
有些任务仅要求模型捕捉上下文语境中自含的知识—— 即输入内容的上下文所提供的知识,已足够模型做出预测。对于这类任务,小型微调模型(fine-tuned models)就能表现得十分出色。机器阅读理解(machine reading comprehension, MRC)便是典型例子之一:该任务会提供若干段落,要求模型基于这些段落预测问题的答案。由于机器阅读理解同时也属于传统自然语言理解(NLU)任务,我们已在之前的章节中对其进行过讨论。
另一种情况是,大语言模型(LLMs)所掌握的现实世界知识对任务毫无用处,甚至任务所需的知识与现实世界知识相悖。因此,大语言模型在这类任务中无法正常发挥作用。在某些情况下,知识的不一致性甚至可能导致大语言模型的表现比随机猜测还要差。
例如,在 Big-Bench 任务集中,“Mnist ascii” 任务要求模型识别 ASCII 艺术所代表的数字。该任务所需的能力与现实世界知识毫无关联。此外,在 “逆缩放现象竞赛”(Inverse Scaling Phenomenon competition)[70] 中,“math redefines”(数学重定义)任务重新定义了一个常用符号,并要求模型在该符号的原始含义与重定义后的含义之间做出选择。由于该任务的要求与大语言模型所掌握的知识相悖,因此大语言模型的表现甚至不如随机猜测。
作为llms中对现实世界知识的一种替代,允许访问额外的知识,因此模型可以通过检索增强获得足够的知识来完成任务。检索增强的基本思想是在进行预测之前增加一个额外的信息检索步骤,在这个步骤中,从一个大的语料库中检索一些与任务相关的有用文本。然后,模型将根据输入上下文和检索到的文本做出预测。有了检索到的附加信息,闭卷任务就可以变成“开卷”任务。在这样的场景中,微调过的模型在更小的尺寸下非常好,因为所需的知识可以通过检索获得。例如,在NaturalQuestions b[52]上,使用额外的语料库,检索增强模型[44,48]比任何其他方法都要好得多。
4.4 Abilities Regarding Scaling
大语言模型(LLMs)的规模扩展(例如参数数量、训练计算量等)能极大增强预训练语言模型的能力。随着模型规模不断扩大,其在一系列任务中的表现通常会愈发出色。从部分指标来看,模型性能与规模呈现出幂律关系(power-law relationship)。
例如,用于衡量语言建模任务性能的交叉熵损失(cross-entropy loss),会随着模型规模的指数级增长而线性下降,这种规律也被称为 “规模定律”(scaling-law)[41, 47]。对于推理等关键能力而言,模型规模的扩展已逐步将这些能力从极低水平提升至可用状态,部分能力甚至接近人类水平。
在本节中,我们将结合大语言模型的能力与行为特征,对其在规模扩展过程中的应用情况进行概述。
注释 5(1)随着模型尺度的指数级增长,llm的推理能力变得特别强,比如算术推理和常识推理。(2)随着llms规模的扩大,涌现能力(Emergent abilities)成为意外发现的能力,比如文字处理能力和逻辑能力。(3)在许多情况下,由于对大型语言模型的能力如何随着规模的扩大而变化的理解有限,性能并没有随着规模的扩大而稳步提高。
4.4.1 具备推理能力的适用场景
推理指对信息进行理解、得出推论并做出判断的过程,是人类智能的核心要素之一,同时也是自然语言处理(NLP)领域的一大难点。目前已有的诸多推理任务,可大致分为常识推理与算术推理两类。
大语言模型(LLMs)的算术推理能力从模型规模的扩展中获益显著。以 GPT-3 为例,其两位数加法能力仅在参数数量超过 130 亿(13B)时才得以显现 [16]。
用于测试算术推理的任务对人类而言较为简单,这类任务的设计目的是考察模型将自然语言转化为数学符号、并进行多步推理的能力。在 GSM8k [26]、SVAMP [79] 和 AQuA [61] 等数据集上,作为 “通用型模型” 的大语言模型,其性能可与多数 “任务专用设计” 的方法相媲美。其中,GPT-4 的表现优于所有其他方法 [76],甚至超过了部分为解决算术问题而专门优化的大型模型 [104]。
不过需要注意的是,即便 “思维链提示”(chain-of-thought, CoT prompting)[115] 能显著提升大语言模型的计算能力,但在不借助外部工具的情况下,大语言模型仍可能在执行基础计算时偶尔出错。
常识推理不仅要求大语言模型(LLMs)记住事实性知识,还要求其对这些事实进行多步推理。随着模型规模的扩大,大语言模型的常识推理能力会逐步提升。
与微调模型(fine-tuned models)相比,大语言模型在大多数数据集(如 StrategyQA [36]、ARC-C [25])上始终保持优势。尤其在 ARC-C 数据集上 —— 该数据集包含 3 至 9 年级科学考试中的难题 ——GPT-4 的表现已接近满分(准确率达 96.3%)[76]。
4.4.2具有紧急能力的用例。
模型的缩放也赋予了模型一些前所未有的、超越幂律规则的神奇能力。这些能力被称为“突发能力”。如文献[113]所定义,llm的突发能力是指在小规模模型中不存在但在大规模模型中存在的能力。这意味着这种能力不能通过外推较小规模模型的性能改进来预测,一旦规模超过一定范围,模型就会在某些任务上突然获得良好的性能。突发能力通常是不可预测和令人惊讶的,导致任务随机出现或出乎意料。我们研究了llms突发能力的具体例子,并为决定是否利用法学硕士突发能力提供了重要参考。
处理词处理任务是一种典型的涌现能力。词处理能力指模型学习符号操作的能力,例如 “单词反转” 任务 [16]—— 该任务中,模型会收到一个拼写反转后的单词,需输出其原单词。
例如,GPT-3 [16] 在单词排序和单词重组任务中展现出了涌现能力;PaLM [22] 则在 ASCII 字符单词识别任务⁴和语序倒置任务⁵中表现出涌现能力。随着模型规模扩大,语言模型的逻辑能力往往会逐渐涌现,例如逻辑演绎、逻辑排序和逻辑网格谜题求解能力。此外,其他任务(如高级编码任务,例如自动调试、代码行描述;以及概念理解任务,例如新概念理解、简单图灵概念理解)也属于大语言模型(LLMs)涌现能力的适用场景。
4.4.3 不适用场景与模型理解
尽管如前文所述,在大多数情况下模型规模越大,性能表现越好,但在选择合适的模型时,仍有许多例外情况需要考虑。
在某些任务中,随着大语言模型(LLMs)规模的扩大,其性能反而会下降。例如以下任务:
- “重定义数学”(Redefine-math):测试语言模型能否在常用符号被重新定义为其他含义的情况下正常处理这些符号;
- “探索未知”(Intothe-unknown):要求模型判断哪条信息有助于回答问题;
- “记忆陷阱”(Memo-trap):让语言模型仿照某句名言的开头句式创作短语,但结尾部分需与之不同⁶。
这种现象也被称为 “逆缩放现象”(Inverse Scaling Phenomenon)。在大语言模型的规模扩展过程中,观察到的另一种有趣现象是 “U 型现象”(U-shaped Phenomenon)[114]。顾名思义,该现象指的是:随着大语言模型规模的扩大,其在某些任务上的性能先是提升,随后出现下降,最终又再次提升。例如以下任务:
- “后见之明偏差”(Hindsight-neglect):测试语言模型能否根据预期价值判断某一赌注是否值得参与;
- “否定问答”(NegationQA):该任务以现有多项选择题数据集为基础,对每个问题的部分内容进行否定改写,以此检验语言模型对 “否定表述” 的敏感度;
- “语句复述”(Quote-repetition):要求模型复述提示语中给出的句子,同时提供少量示例帮助模型理解任务要求。
因此,需注意大语言模型存在性能下降的风险。若待处理任务与上述任务类似,则需慎重考虑是否使用大型大语言模型。
深入了解llms中的涌现能力、逆标度现象和u型现象对于推进该领域的研究至关重要。从某种意义上说,u型现象表明小尺度模型和大尺度模型的预测具有不同的内在机制。从这个角度来看,u型现象可以看作是由于足够大的模型的一些涌现能力而导致的逆尺度现象的转变[114]。GPT-4[76]在某些情况下表现出逆标度现象的逆转,例如在一个称为后见之明忽视的任务中。对于llm在扩展过程中的这些行为的解释仍然是一个开放的问题。人们提出了几个假设。对于突发性能力,一种解释是一项任务可能有多个关键步骤,LLM在足够大到可以处理每个步骤之前无法处理该任务,另一种解释则集中在评估指标的粒度上[113]。对于逆尺度现象和u型现象,解释主要集中在模型过度依赖先验信息而不是输入提示,有效但误导性的少数例子,以及在困难任务中分散更容易的任务[114]。
深入了解法学硕士中的涌现能力、逆标度现象和u型现象对于推进该领域的研究至关重要。从某种意义上说,u型现象表明小尺度模型和大尺度模型的预测具有不同的内在机制。从这个角度来看,u型现象可以看作是由于足够大的模型的一些涌现能力而导致的逆尺度现象的转变[114]。GPT-4[76]在某些情况下表现出逆标度现象的逆转,例如在一个称为后见之明忽视的任务中。对于llm在扩展过程中的这些行为的解释仍然是一个开放的问题。人们提出了几个假设。对于突发性能力,一种解释是一项任务可能有多个关键步骤,LLM在足够大到可以处理每个步骤之前无法处理该任务,另一种解释则集中在评估指标的粒度上[113]。对于逆尺度现象和u型现象,解释主要集中在模型过度依赖先验信息而不是输入提示,有效但误导性的少数例子,以及在困难任务中分散更容易的任务[114]。
4.5杂项任务
本节将探讨此前讨论中未涉及的各类杂项任务,以期更全面地了解大语言模型(LLMs)的优势与不足。
注释6(1)在与大语言模型(LLMs)的预训练目标和数据偏差较大的任务中,微调模型(fine-tuned models)或特定定制模型仍有其应用空间。(2)大语言模型在模拟人类行为、数据标注与生成方面表现优异,还可用于自然语言处理(NLP)任务中的质量评估,并且具备可解释性等额外优势。
4.5.1 不适用场景
由于目标与训练数据存在差异,大语言模型(LLMs)在某些任务上通常表现不佳。
尽管大语言模型(LLMs)在各类自然语言处理任务中取得了显著成效,但其在回归任务中的表现却不尽如人意。例如,ChatGPT 在 GLUE STS-B 数据集(该数据集属于回归任务,用于评估句子相似度)上的表现,就逊色于经过微调的 RoBERTa 模型 [130]。
回归任务通常需要预测连续值而非离散标签,这给大语言模型带来了独特挑战。大语言模型在回归任务中表现欠佳的一个主要原因,在于语言建模目标与回归任务目标存在本质差异。大语言模型的设计初衷是预测序列中的下一个词或生成连贯文本,其预训练过程重点在于捕捉语言模式与语言间的关联。因此,它们的内部表征可能并不适合对连续数值输出进行建模。
此外,大语言模型的训练数据以文本数据为主,训练过程聚焦于捕捉自然语言处理的复杂细节。这导致其在多模态数据上的表现仍有待深入探索 —— 多模态数据涉及处理多种数据类型,如文本、图像、音频、视频、动作数据及机器人相关数据等。目前,经过微调的多模态模型(如 BEiT [110] 和 PaLI [19])在视觉问答(VQA)、图像描述生成等诸多任务中仍占据主导地位。不过,近期推出的 GPT-4 [76] 已在多模态融合方面迈出了一步,但目前对其能力的详细评估仍较为缺乏。
4.5.2 适用场景
大语言模型(LLMs)特别适合用于某些特定任务。
大语言模型(LLMs)在模拟人类行为、充当聊天机器人以及执行各类任务方面表现十分出色。由大语言模型驱动的 ChatGPT⁷,在与人类的多轮对话过程中,展现出的一致性、可靠性、信息丰富性和稳健性令人惊叹。而基于人类反馈的训练流程,在大语言模型获得这些能力的过程中发挥了重要作用。
大语言模型(LLMs)既能充当优秀的标注者,也能作为数据生成工具用于数据增强,相关案例可参见文献 [27, 29, 99, 121, 122]。研究发现,在部分任务中,一些大语言模型的标注能力可与人类标注者相媲美 [37]。此外,从 GPT-3.5(模型版本为 text-davinci-003)中收集的文本,已被用作类人指令遵循演示数据,用于训练其他语言模型 [100]。
llm也可以用于一些NLG任务的质量评估,如摘要和翻译。在总结任务中,GPT-4作为评估者与人类的相关性比其他方法高,且差值较大[64]。其他一些基于llm的评估器[34,50,64,108]在更多的NLG任务中也显示出良好的人类一致性,特别是与传统的自动指标相比。但llm评估者可能对llm生成的文本有偏见[64]。
此外,正如我们前文所讨论的,大语言模型(LLMs)的某些能力除了能提升性能外,还能带来额外优势,可解释性便是其中之一。大语言模型的思维链(CoT)推理能力不仅能提高性能,还能展示模型是如何得出预测结果的 —— 这在实例层面构成了一种良好的解释。
4.6 Real world "tasks"
在本节的最后部分,我们将探讨大语言模型(LLMs)与微调模型在现实世界 “任务” 中的应用。此处我们对 “任务” 一词的使用较为宽泛 —— 因为现实场景往往缺乏学术界中那种格式规范的定义,甚至许多对模型的请求都无法被归为自然语言处理(NLP)任务。
在现实世界中,模型面临的挑战主要来自三个方面:
- 含噪声 / 非结构化输入:现实世界的输入来自非专业用户,这些用户对如何与模型交互了解甚少,甚至无法流畅使用文字表达。因此,现实场景的输入数据往往杂乱无章,可能包含拼写错误、口语化表达及混合语言,与预训练或微调过程中使用的格式规范数据截然不同。
- 学术界未形式化定义的任务:在现实场景中,许多任务并未经过学术界的形式化定义,且相比学术场景中的任务,现实任务的多样性更高。用户提出的查询或请求往往难以被清晰归入预定义的任务类别,有时单个查询中还会包含多个子任务。
- 遵循用户指令:用户的请求可能包含多个隐含意图(例如对输出格式的特定要求),若不进行追问,其期望的预测结果可能并不明确。模型需要准确理解用户意图,并生成与这些意图相符的输出。
本质上,现实世界中的这些挑战源于:用户请求与为特定任务设计的任何自然语言处理(NLP)数据集的分布存在显著偏差。公开的自然语言处理数据集无法反映模型在实际场景中的使用情况。
注释7 相较于微调模型,大语言模型(LLMs)更适合处理现实场景中的任务。然而,如何评估模型在现实场景中的有效性,目前仍是一个待解问题。
应对此类现实场景,需要处理模糊信息、理解上下文并应对含噪声输入。与微调模型相比,大语言模型(LLMs)在这方面的能力更胜一筹,因为它们经过了多样化数据集的训练 —— 这些数据集涵盖了不同的写作风格、语言种类及领域范围。此外,大语言模型还具备强大的开放域响应生成能力,这使其非常适配此类现实场景。
另一方面,微调模型通常是为特定且定义明确的任务量身定制的,可能难以适应新的或超出预期的用户请求。它们高度依赖清晰的任务目标和格式规范的训练数据,而这些数据会明确模型应学习遵循的指令类型。由于微调模型的关注点较窄,仅聚焦于特定的数据分布和结构化数据,因此它们在处理含噪声输入时可能会表现不佳。通常需要额外的辅助系统来协助微调模型:处理非结构化上下文、判断可能的用户意图,并据此优化模型的响应内容。
此外,指令调优[91,112]和人类对齐调优[77]等机制进一步提高了llm更好地理解和遵循用户指令的能力。这些方法提高了模型生成有益的、无害的和诚实的响应的能力,同时保持连贯性和一致性[77,91,112]。虽然这两种方法都可以使llm更好地泛化到看不见的任务和指令,但人们已经注意到,虽然人类标注者更喜欢为人类调整的模型[77],而不是根据公共NLP任务的指令调整的模型,如FLAN[112]和T0[91]。原因可能类似于微调模型的劣势:公共NLP任务/数据集的设计是为了方便和自动评估,它们只能覆盖现实世界使用的一小部分。
在现实场景中,核心问题之一便是如何评估模型的优劣。由于缺乏形式化的任务定义或评估指标,对模型有效性的评估只能依赖人工标注者的反馈。考虑到人工评估的复杂性与高昂成本,目前尚未对微调模型与大语言模型(LLMs)展开大规模、系统性的对比研究。尽管如此,ChatGPT 等大语言模型所取得的巨大成功及其广泛普及,已在一定程度上印证了大语言模型的优势。
5 OTHER CONSIDERATIONS
尽管大语言模型(LLMs)适用于各类下游任务,但仍需考虑其他一些因素,例如效率和可信度。本文对效率的探讨涵盖了大语言模型的训练成本、推理延迟以及参数高效调优策略;与此同时,对可信度的考察则包括大语言模型的鲁棒性与校准度、公平性与偏差、潜在的虚假相关性,以及其面临的安全性挑战.
注 8
(1)对于成本敏感或对延迟有严格要求的场景,应优先考虑轻量级、本地化的微调模型,而非大语言模型(LLMs)。参数高效调优(Parameter-Efficient Tuning)可作为模型部署与交付的可行方案。(2)大语言模型的零样本(zero-shot)方法能避免从特定任务数据集中学习 “捷径”—— 这种 “捷径学习” 在微调模型中十分普遍。尽管如此,大语言模型仍在一定程度上存在捷径学习问题。(3)大语言模型相关的安全问题应得到最高优先级关注,因为其可能生成的有害输出、带有偏差的内容以及 “幻觉”(hallucinations),均可能导致严重后果。人类反馈(human feedback)等方法已被证明在缓解这些问题方面具有潜力。
5.1 Efficiency
在现实世界部署中,性能、成本和延迟都是需要重点考虑的因素,而不仅仅是模型的性能。尽管目前已开发出一些参数高效的方法,但在实际应用中,从业者必须在效率与效果之间取得平衡。
近年来,大语言模型(LLMs)的规模不断扩大。以 GPT-1、GPT-2 和 GPT-3 为例,它们的参数数量分别为 1.17 亿、15 亿和 1750 亿。大语言模型的训练成本与其规模密切相关,据估算,训练一个 110 亿参数的 T5 模型变体,单次训练成本远超过 130 万美元;而单次训练 1750 亿参数的 GPT-3 模型,成本则需 460 万美元 [3]。
大型模型训练过程中的能耗同样惊人。据估算,训练一个 60 亿参数的 Transformer 模型直至完成,总能耗约为 103.5 兆瓦时(MWh)[30]。谷歌方面表示,在约两个月的时间里,训练 PaLM 模型消耗了约 3.4 吉瓦时(GWh)[6]。此外,数据集规模也随模型规模的扩大而快速增长,1750 亿参数的 GPT-3 模型训练所使用的数据集包含 4990 亿个词元(token)[16]。
另一个反映计算成本的关键指标是浮点运算次数(Flops)。1750 亿参数的 GPT-3 模型训练需 3.14×10²³ 次浮点运算,而 110 亿参数的 T5 模型仅需 3.30×10²² 次浮点运算,前者是后者的 10 倍。
除上述成本外,大语言模型对硬件的要求也极为苛刻。OpenAI 已与微软合作,在微软 Azure 云端部署了一台超级计算机,该计算机包含 28.5 万个 CPU 核心和 1 万个高端 GPU,专门用于支持大型模型的训练。
对于 OpenAI API 的用户而言,定价会根据所使用的模型及使用量有所不同。例如,GPT-3.5-turbo 模型的聊天服务定价为每 1000 个词元 0.002 美元。但对于需要定制模型的用户,训练阶段的费用为每 1000 个词元 0.03 美元,使用阶段的费用则为每 1000 个词元 0.12 美元 [4]。
因此,对于中小型初创企业、个人用户等无法承担高额成本的用户群体而言,选择小型微调模型是更优且更合理的方案。
在大语言模型(LLMs)的现实应用中,延迟是需重点考量的关键因素。推理时间是衡量延迟的常用指标,其长短在很大程度上取决于模型规模、架构以及词元(token)长度。例如,对于 GPT-J 6B 模型,当最大词元长度分别设置为 2、8 和 32 时,其推理时间分别为 0.077 秒、0.203 秒和 0.707 秒。此外,当最大词元长度固定为 32 时,InstructGPT 模型(davinci v2 版本)的推理时间为 1.969 秒。
由于大语言模型通常规模过大,无法在单个用户设备上运行,企业会通过 API(应用程序编程接口)提供大语言模型服务。API 延迟会因用户所在地理位置不同而存在差异,OpenAI API 服务单次请求的平均延迟范围可达数百毫秒至数秒。
在无法容忍高延迟的场景中,大型大语言模型可能并不适用。例如,在许多信息检索应用中,可扩展性至关重要。要在网络上部署信息检索系统,搜索引擎需要具备极高效率的推理能力,才能实现实用价值。InstructGPT davinci v2(1750 亿参数 *)模型的理想去噪推理时间为单次请求(即对一个查询 - 文本段落对进行评分)0.21 秒,这对于网络搜索引擎而言速度过慢。
在实际应用中,我们可能需要在某些特定数据集上对模型进行调优。参数高效调优(Parameter-Efficient Tuning,简称 PET)是一种高效的调优技术,其核心是冻结预训练大语言模型(LLMs)的大部分参数,仅对模型的一小部分参数(或额外新增的参数)进行调优。参数高效调优的主要目标是在保持原模型性能的同时,大幅降低计算成本与存储成本。
常见的参数高效调优技术包括 LoRA(低秩适应,[42])、前缀调优(Prefix Tuning,[58])和 P-Tuning([62, 63])。以 LoRA 方法为例,该方法会保留预训练模型的权重不变,同时在 Transformer 架构的每一层中融入低秩矩阵。这种方式能显著减少后续任务调优过程中需要训练的参数数量,从而提升整体效率。
Alpaca-LoRA⁸提出将低秩适应(LoRA)技术集成到 LLaMA-Alpaca 模型中,这使得在单张 RTX 4090 显卡上仅需数小时就能运行 LLaMA 模型。所有这些参数高效调优方法均具有实用价值:既能用于将模型微调到特定任务,也能用于调整大语言模型以满足人类对齐等特殊需求。
5.2 Trustworthiness
鉴于大语言模型(LLMs)目前已应用于医疗、金融、法律等敏感领域,确保其具备可信度并能生成可靠输出至关重要。
研究表明,大语言模型的准确性与鲁棒性之间存在极强的相关性 [59]:在某一场景下准确性高的模型,其鲁棒性也较好。然而,当模型在额外的特定应用任务数据上进行调优后,其零样本(zero-shot)鲁棒性会有所下降 [116]。这可能是过拟合(overfitting)导致的 —— 由于模型复杂度极高,且下游任务的训练样本有限,模型的泛化能力会随之变差 [43]。
与此类似,已有研究发现,由于模型存在过参数化(over-parameterization)问题,对模型进行微调可能会导致显著的校准偏差 [51]。因此,当鲁棒性与校准度是关键考量因素时,微调模型或许并非最优选择。不过,研究发现 “人类对齐(human alignment)” 是提升模型鲁棒性的潜在解决方案。例如,InstructGPT davinci v2(1750 亿参数 *)模型已被证明在鲁棒性方面优于其他模型。另一方面,要实现模型的最优校准,则取决于具体应用场景及所采用的适配流程。
研究表明,大语言模型(LLMs)会表现出差异化对待与差异化影响,这会固化社会中已存在的偏差,并可能导致歧视现象 [10, 17]。为确保所有用户都能获得公平公正的服务,在自然语言处理(NLP)模型的开发与部署过程中,解决这些问题至关重要。
不同人群群体之间的模型性能差异,可作为判断公平性问题的一个指标。大语言模型在公平性问题上尤其敏感 —— 研究已观察到,模型在方言、宗教、性别、种族等不同人群类别上的性能存在显著差异 [59]。不过,有研究指出,无论模型规模大小,让模型与人类指令对齐都能提升其性能;例如,InstructGPT 模型(davinci v2 版本)相较于其他大语言模型,其在不同人群群体间的性能差异更小 [23]。
在预训练 - 微调范式下,各类自然语言理解任务中均存在 “捷径学习” 问题:模型在预测时严重依赖微调数据中输入与标签之间的虚假相关性 [31, 35, 98]。例如,在阅读理解任务中,经过微调的模型往往聚焦于问题与原文之间的词汇匹配,却忽略了阅读理解任务本身的核心目标 [53]。
与之相反,大语言模型(LLMs)并非直接在微调数据集上训练,因此它们学习微调数据中存在的 “捷径特征” 的可能性更低,进而提升了模型的泛化能力。然而,大语言模型并非绝对可靠,其在上下文学习过程中仍可能出现一定程度的捷径学习。例如,近期已有初步研究开始探究大规模语言模型中基于提示(prompt)的方法的鲁棒性 [111, 129]。其中一项研究评估了 GPT-3 在文本分类和信息抽取任务上的少样本学习性能 [129],结果发现,所研究的大语言模型易受 “多数标签偏差” 和 “位置偏差” 影响 —— 即模型倾向于根据训练数据中答案的出现频率或位置来预测结果。此外,这些大语言模型还存在 “常见词元偏差”,更偏好输出其预训练语料中出现频率较高的答案。近期研究表明,通过选择合适的提示语,可缓解这种位置偏差 [68]。
综上,尽管大语言模型大幅减少了微调模型中普遍存在的捷径学习问题,但它们仍存在一定的捷径学习隐患。因此,在下游应用中部署大语言模型时,需谨慎对待这一问题
5.3 Safety challenges
大语言模型(LLMs)已在推理、知识留存、代码编写等多个领域展现出极强的能力。随着其功能愈发强大且更贴近人类,它们对人类观点和行为产生重大影响的潜力也在不断提升。因此,一些给社会带来的新型安全挑战值得关注,且在近期的研究中已受到广泛重视 [75, 76]。
大语言模型(LLMs)存在 “幻觉”(hallucinations)风险,即生成无意义或不真实的内容,这可能对各类应用中信息的质量与可靠性产生显著负面影响。随着大语言模型的表达愈发令人信服、贴近真实,用户可能会对其产生过度依赖,甚至在自己略熟悉的领域中,也信任模型能提供准确信息。
若模型生成的内容完全虚假或具有误导性,用户基于此类信息做出错误决策或行动,后果可能尤为危险。在医疗、金融、公共政策等对信息准确性和可靠性要求极高的领域,这类后果往往会造成严重影响。
为缓解此类问题,基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)已被广泛应用 [75, 77],同时大语言模型自身也被纳入(问题解决的)循环流程中 [75]。
由于大语言模型(LLMs)生成的文本连贯性强、质量高且看似合理,其生成的有害内容可能会造成严重危害,包括仇恨言论、歧视性内容、煽动暴力的言论、虚假叙事,甚至引发社会工程学攻击。实施相关防护措施以检测并修正这类内容,可起到缓解危害的作用 [97]。
此外,大语言模型还存在 “双重用途” 风险 —— 它们可能会提供实施非法行为所需的信息,进而引发武器扩散 [75]、甚至恐怖袭击策划等风险。因此,确保负责任地使用大语言模型,并建立防护机制以防范危害,至关重要。同时,在现有研究中,人类反馈在消除有害输出方面也发挥着重要作用。
大语言模型(LLMs)可能面临严重的安全问题,用户隐私泄露便是其中一例。有报道称,三星公司员工在使用 ChatGPT 处理工作时,不慎泄露了绝密数据,包括新程序的完整源代码、与硬件相关的内部会议纪要等。意大利数据保护机构宣称,ChatGPT 的开发者 OpenAI 存在非法收集用户个人数据的行为;受此影响,意大利成为全球首个因隐私担忧而禁止使用 ChatGPT 的国家 [1]。
6 CONCLUSION AND FUTURE CHALLENGES
近年来,大语言模型(LLMs)的快速发展正在为自然语言处理(NLP)领域带来革命性变革。要高效运用大语言模型,需明确其在各类自然语言处理任务中的能力范畴与局限性。本文为利用大语言模型开展下游自然语言处理任务提供了一份实用指南。
首先,我们探讨了主流大语言模型(如 GPT 系列架构、BERT 系列架构),并分析了影响其性能的关键因素。随后,我们研究了大语言模型在下游任务中的应用场景,包括知识密集型任务、自然语言理解(NLU)任务及自然语言生成(NLG)任务,并结合具体案例阐述了其应用成效与局限性。
这份实用指南深入剖析了大语言模型的核心特性,并提供了在各类自然语言处理任务中运用大语言模型的最佳实践方案。我们期望它能助力研究人员与从业者充分挖掘大语言模型的潜力,推动语言技术领域的创新发展。
接下来,我们将梳理大语言模型(LLMs)面临的未来挑战:
・在真实世界 “数据集” 上对所提模型进行评估:目前,现有深度学习模型主要在 ImageNet 等标准学术数据集上进行评估,这些数据集已成为深度学习发展历程中的里程碑。然而,标准学术数据集存在局限性,无法准确反映模型在真实世界中的性能表现。随着模型不断发展,利用更具多样性、复杂性且更贴近实际的数据集(即能反映真实世界需求的数据集)对模型进行评估变得至关重要。
除学术数据集外,在真实世界 “数据集” 上对模型进行评估,不仅能为模型能力提供更严格的检验,还能让人们更清晰地了解模型在实际应用场景中的有效性,从而确保模型能够应对真实世界的挑战,并提供切实可行的解决方案。
・模型对齐(Model Alignment):确保能力日益强大且具备自主性的模型与人类价值观及优先事项保持一致,至关重要。我们必须研发相关方法,保证这些模型能按预期运行,且不会朝着不良结果进行优化。在模型开发流程的初始阶段就融入对齐技术,是核心要求之一。此外,模型的透明度与可解释性,也是评估并保障模型对齐效果的重要因素。
展望未来,一项更艰巨的挑战逐渐显现:实现超人类智能系统(superhuman systems)的对齐。尽管目前这一任务尚未提上日程,但我们有必要提前思考并为这类先进系统对齐工作的潜在影响做好准备 —— 因为超人类智能系统可能会带来独特的复杂性问题与伦理考量 [8, 15]。
・安全对齐(Safety Alignment):尽管对人工智能(AI)存在性风险的讨论十分重要,但仍需通过切实的研究来保障先进人工智能的安全发展。这其中涵盖可解释性技术、可扩展的监督与治理机制,以及对模型属性的形式化验证。安全不应被视为模型构建过程中的附加项,而应是该过程不可或缺的组成部分。
・基于缩放的性能预测(Performance Prediction with Scaling):当模型规模与复杂度大幅提升时,很难预测模型性能会发生怎样的变化。研发相关方法以更好地预测模型在规模扩大后或新架构出现时的性能,有助于更高效地利用资源并加速技术进展。
可能的实现方向包括:训练一个较小的 “种子模型”(seed model)并推演其性能随规模增长的规律、模拟规模扩大或模型微调带来的影响,以及在不同规模下对模型迭代版本进行基准测试以构建缩放定律(scaling laws)。这些方法甚至能在目标模型尚未构建完成时,就为其性能评估提供参考依据。
