当前位置：首页 > news >正文

技术学习_大语言模型

news 2025/7/3 16:47:28

1. 大语言模型概述

主流大语言模型：大语言模型（LLM）作为推动人工智能发展的核心技术，正不断拓展其在各类任务中的应用边界。ChatGPT 是当前最具代表性的大模型之一，其卓越的语言理解与生成能力，推动人工智能迈上了新的台阶。与此同时，国产大模型 DeepSeek 也在快速发展，凭借高性能、低成本、国产化与开源化等优势，展现出强大的本土竞争力。随着不同类型的大模型不断涌现，LLM 正加速走向更广泛的实用化与生态多元化。

大语言模型能力：大语言模型具备强大的语言理解与生成能力，能够处理复杂的自然语言任务。同时，它们还能进行多轮对话管理，保持上下文一致性，并具备一定的逻辑推理能力，支持复杂问题的分析与回答。在底层实现上，模型通过统一化的“数据+知识”处理机制，将语言数据与世界知识融合，为推理与决策提供支持。然而，大语言模型仍存在“幻觉问题”，即在生成过程中可能产生与事实不符的信息，这一挑战也成为未来改进的重要方向。

由语言模型到大语言模型：语言模型的核心任务是根据已有的上下文预测下一个最可能出现的词，例如在“天气预报大风降温，我明天要多___”的句子中，模型需基于前文推测合理的补全。大语言模型通过学习大量语料，估计当前词在上下文条件下的概率分布，进而生成流畅自然的语言内容。随着模型规模的不断扩大，其参数数量已达到百亿甚至千亿级别，例如 ChatGPT 拥有 1750 亿参数，DeepSeek 则高达 6710 亿，支持更强的语言理解与生成能力。大模型的出现使语言建模从统计方法迈向深度学习驱动的智能时代。

大语言模型的实现：LLM的实现依赖于大规模神经网络结构、超大语料数据集和高性能计算资源的协同支撑。其核心训练流程通常包括两个阶段：预训练和微调。在预训练阶段，模型通过无监督或自监督方式在海量文本上进行训练，学习语言的统计规律和潜在语义表示；在微调阶段，模型根据具体任务（如问答、摘要、翻译等）进行有监督的优化，从而提升在特定应用场景中的效果。

大语言模型的关键技术：LLM的成功依赖于两类核心技术：一是以 Transformer 架构为代表的结构性建模技术，二是以强化学习为代表的人类对齐优化方法。

Transformer 模型是当前大语言模型的核心基础。Transformer 采用编码器-解码器（Encoder-Decoder）架构，整体由多个堆叠的编码层和解码层组成，支持高效的并行计算与长距离依赖建模。编码器部分主要负责提取输入序列的语义信息，结构上由多头注意力机制（Multi-Head Attention）和前馈神经网络（Feed Forward）组成，并配有残差连接（Add & Norm）以稳定训练过程；解码器则在每个层中引入了掩蔽注意力（Masked Multi-Head Attention）用于防止信息泄露，同时结合编码器的输出进行上下文理解与目标生成。模型通过多层堆叠实现从底层语法到高层语义的逐步抽象，最终由解码器输出下一个单词的概率分布。这一设计使 Transformer 能够灵活处理各种自然语言任务，如翻译、问答和文本生成，成为大语言模型（如 BERT、GPT、T5 等）的基础架构。
强化学习主要用于提升模型响应的质量与人类对齐程度。常见的两种方式包括：一是模仿学习，即通过大量人类撰写的指令与回答示例进行训练，使模型学会生成符合人类表达风格和意图的内容；二是基于奖励建模的强化学习，先训练一个评价模型，用于判断 LLM 输出的优劣，然后将该评价模型作为奖励函数，引导语言模型在生成过程中优化策略。这两种方式协同作用，使模型不仅具备语言能力，还更贴近人类价值和偏好，从而提升其实用性与可信度。

大语言模型的幻觉问题：大语言模型的幻觉问题（Hallucination）是指模型在生成内容时可能输出语法正确但事实错误的信息，例如虚构引用、捏造人物或编造事件。这种现象源于模型基于概率预测而非事实理解进行文本生成，同时训练数据中可能包含不准确的信息，进一步放大了这一问题。在医疗、法律等对内容准确性要求极高的场景中，幻觉问题可能带来严重后果。为此，研究者正在探索检索增强生成、知识库接入和人类反馈强化学习等方法，以提升生成结果的真实性与可信度，但幻觉仍是当前大语言模型面临的关键技术挑战之一。

2. Transformer 基础（注意力机制，残差连接，层归一化）

注意力机制引入：选择性注意是认知心理学中的现象，指人类能在复杂信息中聚焦于与任务相关的部分。受此启发，人工智能引入注意力机制，使模型在处理序列数据时能动态分配关注权重，聚焦关键信息。在自然语言处理中，注意力机制通过建模词语间的相关性，提升了上下文感知能力，尤其能有效处理长距离依赖。例如，模型能根据语境判断“苹果”在不同句子中指代水果或电子设备，从而实现更准确的语义理解与生成。

注意力机制的原理：注意力机制是一种根据输入之间的相关性动态分配权重，从而实现信息选择性聚焦与加权整合的建模方法。

以“中年人”的平均收入为例，注意力机制通过模糊加权改进了传统的硬划分求平均方法。传统方法对所有人或特定年龄段的收入直接平均，而注意力机制则根据查询年龄（如45岁）与个体年龄的相似度分配权重，权重越接近越高。如张三和王五权重较高，李四和马六较低。最终加权平均得出更贴近查询语义的结果（如36.9万），体现了注意力机制对关键信息的动态聚焦能力。

注意力权重的一般表示：注意力机制是一种根据输入之间的相关性动态分配权重的机制，其核心思想是将不同位置的信息加权求和，以实现对关键信息的聚焦。具体来说，模型首先计算查询向量 qqq 与每个键向量 k_i 之间的相似度，并将其归一化为注意力权重 α(q,k_i)，再将这些权重作用于对应的值向量 v_i 上，最终通过加权和得到输出向量 v。整个计算过程可表示为：

其中，d 为向量维度，用于缩放点积值，避免维度过大导致相似度数值过高。注意力机制广泛应用于 Transformer 等模型中，显著提升了对上下文依赖和语义关系的建模能力。

注意力权重的矩阵表示：在实际应用中，为提升计算效率和实现并行处理，注意力机制通常采用矩阵形式表示。具体地，将所有查询向量 q_i 组成一个查询矩阵 Q，所有键向量和值向量分别组成矩阵 K 和 V。注意力机制的计算可以表示为：

softmax 操作用于归一化这些相似度，从而得到注意力权重矩阵，最终与值矩阵 V 相乘，得到每个查询对应的输出。该矩阵表示形式极大地提高了模型的计算效率，并成为 Transformer 等大型模型的基础。

自注意力机制的矩阵表示：自注意力机制是一种特殊的注意力机制，它在处理输入序列时，会将每个位置的表示同时作为查询、键和值，从而在同一个序列内部建立词与词之间的关联。具体来说，模型会根据每个词与其他词之间的语义相关程度，计算出一组权重，用于加权融合整个序列中的信息。自注意力机制的计算可以表示为：

这种机制使得每个词的表示都能够动态地整合来自其他位置的上下文信息，尤其适合捕捉长距离依赖关系，显著提升了模型的语义建模能力。自注意力机制已成为现代自然语言处理模型，尤其是Transformer结构的核心组件。

残差连接：Transformer采用多头自注意力机制与残差连接相结合的结构，输入序列中的每个向量首先经过多头自注意力机制，捕捉全局上下文信息，生成对应的注意力输出。随后，通过残差连接将每个注意力输出与其原始输入向量相加，从而得到最终的输出表示。这种结构既增强了模型对全局依赖关系的建模能力，又通过残差连接保留了原始特征信息，有助于缓解梯度消失问题并提升训练稳定性。

层归一化：在Transformer结构中，层归一化（Layer Normalization）被广泛应用于各个子层之后，通常紧随残差连接。其主要作用是对每个样本的特征维度进行标准化处理，使其均值为0、方差为1，从而缓解内部协变量偏移问题，提升模型的训练稳定性与收敛速度。与批归一化不同，层归一化不依赖于batch维度，因此更适用于变长序列建模任务。通过在残差连接后引入层归一化，Transformer能够更有效地整合原始输入与子层输出，有助于深层网络的训练与性能提升。

3. Transformer 架构（编码器，解码器）

3.1 编码器

输入层：在自然语言处理中，位置信息对语义理解至关重要，例如“张三比李四高”与“李四比张三高”虽然词相同，但顺序不同语义相反。传统的循环神经网络因按序处理词语，能隐式捕捉位置信息；而Transformer虽具备强大的注意力机制，但本身不考虑词序，忽略了位置信息。为此，Transformer在输入层显式引入位置向量，通过将每个词的词向量与其对应的位置信息相加，使模型能够同时感知词义与其在句子中的位置。最终，输入层形成一个融合语义和位置信息的表示矩阵，用于后续的编码处理。

编码层：Transformer编码器中的一个典型编码层主要由两个子层组成：多头自注意力机制子层和前馈全连接网络子层。首先，输入向量经过多头自注意力机制，用于捕捉序列中各位置之间的全局依赖关系；随后通过残差连接与层归一化增强训练稳定性与信息保留。接着，经过一个前馈全连接网络对每个位置的表示进行非线性变换，再次通过残差连接与层归一化完成该层的计算。整个编码层的设计能够在保持原始信息的同时不断提取深层特征，是Transformer模型学习上下文表示的关键组件。

Transformer编码器通常由多个编码层堆叠而成，其中底层更关注词语的语义信息，而高层则倾向于捕捉句子的语法结构。

3.2 解码器

输入层：在生成任务中，解码器需要根据已生成的部分输出序列逐步预测下一个词，因此其输入层不仅要表达词义，还需体现词语在目标序列中的位置关系。与编码器类似，解码器输入层将当前已生成的输出词转换为词向量，并显式引入位置向量，通过将二者相加，形成既包含语义又包含位置信息的表示。这样一来，解码器便能感知目标序列中各词的顺序，从而更准确地进行上下文建模和后续词预测。

解码层：Transformer结构中解码器的典型解码层主要由三部分组成：第一部分是自注意力机制，用于建模目标序列中已生成部分之间的依赖关系；第二部分是编码器-解码器注意力机制，通过引入编码器的中间表示，使解码器能够根据源语言序列提取关键信息，指导当前词的生成；第三部分是前馈全连接网络，对每个位置的表示进行非线性转换以增强表达能力。每个子层后都通过残差连接和层归一化保证信息流的稳定和训练效果的提升。多个解码层堆叠后，解码器能够逐步生成连贯、语义一致的目标序列。

Transformer解码器通常由多个解码层组成，逐层从编码器的语义表示中恢复出符合目标语言语法结构的输出序列。

解码器中的掩码技术用于屏蔽当前位置之后的词，确保模型在生成每个词时只能依赖已生成的部分，从而实现自回归的生成方式。

输出层：解码器的输出层位于整个Transformer解码器的最顶端，其主要功能是将解码层生成的上下文表示映射到词表空间，从而计算出每个词作为下一个输出词的概率。具体来说，输出层通常由一个线性变换和一个softmax函数组成，线性变换将高维向量映射为与词表大小一致的维度，softmax函数则将该向量转换为概率分布。通过选取概率最高的词，模型便可生成目标序列中的下一个词，从而实现文本生成任务。输出层是模型生成结果的关键环节，直接决定了生成内容的准确性与流畅度。

采样方法是在文本生成过程中，根据输出层的概率分布选择下一个词的策略。常见方法包括贪心搜索（选择概率最高的词）、随机采样（按概率随机选词）、束搜索（保留多个最优路径）、Top-k和Top-p采样（限制候选词集合提升多样性）。不同采样方法在生成文本的准确性、多样性和连贯性之间实现不同的平衡。

4. GPT模型

GPT（Generative Pre-Training）是一种生成式预训练模型，全称为“生成式预训练Transformer”，通过对大规模文本进行自回归式学习，具备强大的语言理解与生成能力。自GPT模型提出以来，陆续发展出多个版本，包括GPT-1、GPT-2、GPT-3、GPT-3.5以及ChatGPT等，标志着预训练大语言模型时代的开启，推动了自然语言处理技术的迅速进步。

预训练模型是一种在大规模数据集上进行训练以学习通用特征和模式的机器学习模型，能够提取语言、图像等数据中的规律与语义信息。它可作为下游任务的初始化模型，通过少量数据微调即可适应具体应用，从而减少对特定任务数据的依赖，提升训练效率与性能。典型例子包括在ImageNet上训练的图像处理模型，以及通过预训练获取词向量的神经网络语言模型。

4.1 GPT-1模型

GPT-1模型训练：GPT-1采用基于Transformer架构中解码器模块的两阶段训练策略。首先在大规模通用语料上进行无监督预训练，学习语言的通用规律，如语法结构和语义关系，全面提升模型的语言理解与生成能力；随后进入微调阶段，利用与具体任务相关的人工标注数据对模型进行有监督训练，使其能够适应特定的自然语言处理任务，具备解决特定问题的能力。这一预训练加微调的框架为后续大规模预训练语言模型的发展奠定了重要基础。

GPT-1模型基本信息：包括词表大小为4万个，词向量维度为768。其位置编码支持的最大序列长度为512，位置向量维度同样为768。模型包含12层解码器，每层使用12个注意力头的多头自注意力机制。前馈全连接神经网络的隐藏层规模为3072，输出层为768，总参数量约为1.17亿。GPT-1的预训练数据集约为4.5GB，主要来自7000本未公开出版的书籍。

GPT-1性能分析：在自然语言推理、问答、语义相似度和文本分类等12项自然语言处理任务中，GPT-1在其中9项任务上达到了当时的最佳水平，展现出强大的通用能力。它采用统一的模型架构处理不同任务，开启了自然语言处理乃至人工智能研究的新阶段，也使人们深刻认识到预训练模型的重要性。

GPT-1首次提出了“预训练+微调”的训练范式，通过在大规模语料上预训练语言模型，再利用少量任务数据进行微调，从而提升模型在下游任务中的表现。

4.2 GPT-2模型

GPT-2 模型简介：该模型是在GPT-1基础上提出的增强版预训练语言模型。GPT-1通过预训练加微调的方式在多个下游任务中取得了良好效果，但仍依赖任务特定的数据。GPT-2在此基础上显著扩大了模型规模，实验表明其性能会随着模型层数和参数数量的增加而不断提升。同时，GPT-2展示了强大的零样本学习（Zero-shot Learning）能力，在无需微调的情况下即可完成多种自然语言处理任务。这一进展促使研究者进一步探索更大规模模型与数据对性能提升的潜力。

GPT-2模型基本信息：GPT-2模型在结构上进行了多项改进。首先采用了前置层归一化方法，显著提升了模型训练的稳定性与收敛速度；在最后一个解码层后还额外加入了一次层归一化，相当于实现了后置归一化，进一步增强了模型的输出表现。此外，GPT-2将输入序列长度由GPT-1的512扩展至1024，增强了对长文本的处理能力。GPT-2共测试了4个不同规模的模型，参数量分别为117M、345M、762M和1542M，对应的网络层数为12、24、36和48，词向量维度也随之从768扩展到1600。其训练使用了40GB规模的WebText数据集，数据来源于网络中被点赞三次及以上的内容，相比GPT-1使用的4.5GB数据显著扩展，有效提升了模型的语言建模能力。

GPT-2性能分析：GPT-2在多个语言建模任务中表现优异，特别是在参数量为1542M时，在LAMBADA、CBT-CN、CBT-NE、WikiText2、PTB等七项任务中取得了当时最优成绩，仅在1BW任务上略逊于SOTA，其原因主要在于训练数据覆盖率较低，表明其性能提升更多依赖于模型规模和结构优化。除语言建模外，GPT-2在阅读理解、机器翻译、文本摘要和问答等自然语言处理任务中也展现出较强的零样本学习能力，整体性能随着模型规模的扩大而稳步提升，进一步验证了大规模预训练模型在多任务泛化方面的强大潜力。

GPT-2通过显著扩大模型规模，在无需微调的情况下，仅依靠预训练就能在多种自然语言处理任务中取得良好效果，展现出强大的零样本学习能力。相比于GPT-1依赖特定下游任务数据进行微调的策略，GPT-2证明了单纯依靠大规模预训练模型，也能具备强大的语言理解与生成能力，从而推动了“预训练即能力”的研究范式。

4.3 GPT-3模型

GPT-3 模型简介：GPT-3是在前代模型基础上进一步扩展规模的预训练语言模型，旨在探索更大模型规模对任务表现的影响，并评估模型在给定少量示例时的任务求解能力。通过显著提升参数量和训练数据规模，GPT-3在无需微调的情况下，仅凭预训练和少量示例即可完成多种自然语言处理任务，展现出强大的少样本学习和泛化能力，推动了“预训练即通用能力”范式的进一步发展。

GPT-3模型基本信息：GPT-3模型包含多个规模版本，参数量从1.25亿扩展至1750亿，层数从12层增加到96层，模型维度和注意力头数量也随之显著增长，批量大小扩大，学习率则随规模递减。这些结构和训练配置的提升为其强大性能奠定了基础。GPT-3的训练数据总规模约为3000亿词元，主要来自清理后的Common Crawl、WebText2、Books1、Books2和Wikipedia，按比例分配采样权重和训练轮次。这些多源异构数据为模型提供了丰富的语言知识，增强了其在多任务环境下的泛化与稳定性。

GPT-3模型的语境学习：语境学习是一种无需调整模型参数，仅通过输入任务相关的少量示例或提示信息（即Prompt）引导模型完成任务的能力。它不同于传统的微调方法，后者依赖大量标注数据并需更新模型参数，而语境学习只需零样本、单样本或少样本即可实现任务迁移，显著降低了应用门槛。随着大规模预训练语言模型的发展，语境学习成为Prompt工程的核心基础，使模型在无需额外训练的情况下具备强大的通用任务求解能力。

GPT-3性能分析：语境学习在无需调整参数的情况下，在多种自然语言处理任务中展现出出色的零样本与少样本能力。在单词恢复任务中表现最稳定，准确性高；在问答和文本分类等任务中具备良好的迁移能力，少样本条件下效果优于传统方法；在机器翻译中虽不及专门微调模型，但在高资源语言对上表现仍较可接受。总体来看，语境学习通过Prompt设计，使预训练大模型具备良好的任务泛化能力，体现出“即插即用”的应用优势。

4.4 ChatGPT模型

ChatGPT模型简介：尽管GPT-3在多项测试中表现出色，但仍存在一些不足，如难以准确理解用户意图、对指令响应不到位，以及在某些场景下出现乱说、歧视性或危险性言论等不良表现。为进一步提升模型的理解能力与交互安全性，研究者相继提出了GPT-3.5和InstructGPT等改进版本，并在此基础上发展出ChatGPT。ChatGPT在训练过程中引入人类反馈强化学习（RLHF）机制，使模型更善于理解用户指令、生成符合预期的回复，从而显著提升了人机对话的自然性和可靠性。

基于人类反馈的强化学习（RLHF）：是一种通过引入人类评价结果引导模型学习的训练方法，旨在提升语言模型对问题的理解和回答质量。在该过程中，首先由人类标注者对模型生成的多个回答进行排序，训练一个奖励模型来评估回答的优劣；随后，语言模型通过强化学习不断调整输出策略，以获得更高的人类评分。通过这种方式，模型不仅学会了如何更合理地回答问题，还逐步对人类偏好形成了对齐，从而优化了生成内容的相关性、可控性和接受度。

5. BERT模型

BERT（Bidirectional Encoder Representations from Transformers）是谷歌在GPT-1之后提出的预训练语言模型，其核心结构基于Transformer的双向编码器。与GPT-1的单向解码器模型不同，GPT-1只能从左到右预测下一个词，而BERT通过双向建模，能够同时利用上下文的前后信息来预测句中被遮蔽的词，从而提升语言理解能力。图中所示结构展现了BERT由多层编码器堆叠而成，每层由多头自注意力机制与前馈神经网络组成，具备强大的语义建模能力。这种结构使BERT在如填空、句子配对等任务中表现出色，例如对于“因为我（）了，今天没有去上班”这样的句子，BERT能够基于上下文作出更准确的推断。

BERT模型基本信息：BERT模型主要包括两个版本：BERT BASE 和 BERT LARGE。BERT BASE 采用12层编码器，向量维度为768，配备12个注意力头，参数量约为1.1亿，其规模与GPT-1相当，便于对比评估。而BERT LARGE 在此基础上扩展为24层，向量维度提升至1024，注意力头增至16，参数量达3.4亿，用于验证更大规模模型在性能上的提升。该架构为BERT的预训练和下游任务迁移提供了坚实基础。

BERT模型输入：BERT模型的输入由三部分嵌入信息组成：词元向量、段落向量和位置向量。词元向量表示每个输入词语的语义信息，位置向量引入序列中每个词的位置关系，而段落向量则用于区分不同句子所属的片段（如句子A和句子B），在句对任务中尤其重要。与GPT-1相比，BERT在输入中新增了段落向量，使其更适合处理句子对等双输入任务，进一步增强了语义建模能力。

BERT模型预训练：BERT的训练过程分为两个阶段：预训练和微调。预训练阶段采用自监督学习方式，与具体任务无关，主要通过“完形填空”（即遮蔽语言建模，MLM）和“下句预测”两个任务来学习语言的通用表示能力。随后在微调阶段，BERT会使用带有标签的任务数据，根据具体任务进行参数的调整，从而更好地适应实际应用需求。这种训练策略使得BERT在多种下游自然语言处理任务中都能展现出强大的性能。

BERT模型微调：BERT模型与GPT-1类似，通过微调来适应特定的下游任务。在微调阶段，BERT主要应用于两类任务：句对任务和单句任务。句对任务包括文本蕴含、文本相似度、多选题以及抽取式问答等，其中多项任务可转化为句对分类问题；单句任务则涵盖情感分类、文本分类和标注任务等。这种灵活的微调机制使BERT能够高效适配多种自然语言处理任务。

BERT性能分析：BERT在自然语言处理多个下游任务上的性能显著优于此前模型。与OpenAI GPT相比，BERT BASE在MNLI、QQP、SST-2、MRPC、RTE等任务上均有更好表现，平均得分为79.6，高于GPT的75.1，证明即使参数规模相近，BERT也能凭借其双向编码结构展现更强语义理解能力。此外，BERT LARGE通过扩大模型规模，进一步提升了在所有任务上的表现，平均得分达82.1，验证了更大参数量对性能的正向促进作用。整体而言，BERT在理解类任务中的优势明显，展现出良好的迁移能力与通用性。

查看全文

http://www.dtcms.com/a/265250.html