当前位置: 首页 > news >正文

LLM笔记(一)基本概念

LLMs from scratch
Developing an LLM: Building, Training, Finetuning

  1. LLM 的基本概念与定义:

    • LLM是深度神经网络模型,能够理解、生成和解释类似人类的语言。
    • “大型”指的是模型参数数量巨大以及训练数据集的规模庞大。
    • LLM通常基于Transformer架构,并通过在海量文本数据上进行下一词预测的任务进行训练。
    • LLM是生成式人工智能 (Generative AI / GenAI) 的一种形式,处于人工智能 (AI) > 机器学习 (Machine Learning) > 深度学习 (Deep Learning) > LLM 的层级关系中。
  2. LLM 的核心能力与学习范式 :

    • 文本补全为核心,展现通用性: GPT模型虽然主要设计用于执行文本补全任务,但其能力展现出了非凡的通用性。
    • 零样本与少样本学习: 这些模型擅长执行零样本学习 (zero-shot learning)(在没有任何先验特定示例的情况下,对完全陌生的任务进行泛化的能力)和少样本学习 (few-shot learning)(从用户提供的极少示例中进行学习)。
    • 涌现行为 (Emergent Behavior): 模型执行其未经过专门训练的任务的能力被称为涌现行为。这种能力并非在训练过程中被明确教授,而是模型在各种不同情境下接触大量多语言数据后自然产生的结果。GPT模型能够“学习”语言之间的翻译模式并执行翻译任务,尽管它们并未针对翻译进行专门训练,这一事实彰显了这些大规模生成式语言模型的优势与能力。我们无需为每种任务使用不同的模型,就能执行各种各样的任务。
  3. LLM 的应用:

    • 应用广泛,包括机器翻译、文本生成(小说、代码)、情感分析、文本摘要、聊天机器人(如ChatGPT, Gemini)、知识检索等。
    • 核心能力在于解析和生成文本。
  4. 构建、训练和应用LLM的阶段 (Phases of Building, Training, and Applying LLMs):

    • LLM的开发和应用通常遵循一个多阶段的过程,从基础构建到专业化应用。
      image.png

    • 第一阶段:构建LLM与预训练 (Phase 1: Building the LLM and Pretraining)

      • 这个阶段专注于实现数据采样技术并理解LLM开发的基本机制,最终目标是形成一个基础模型 (foundation model)
      • 数据准备与采样 (Data Preparation and Sampling): (详见第7点) 为预训练准备大规模、多样化的文本数据集。
      • LLM架构设计 (LLM Architecture Design): (详见第1, 5, 8点) 选择或设计合适的模型架构,通常基于Transformer。
      • 理解核心机制 (Understanding Core Mechanisms):
        • 注意力机制 (Attention Mechanism): (详见第5点) 理解并实现如自注意力这样的核心组件。
      • 预训练 (Pretraining): 在大规模、多样化的未标记文本数据上训练模型,使其获得对语言的广泛理解。预训练通常非常昂贵,需要大量的计算资源(如GPU/TPU)。
        • 训练循环 (Training Loop): 实现并优化模型训练的迭代过程。
    • 第二阶段:基础模型的评估与微调 (Phase 2: Foundation Model Evaluation and Fine-tuning)

      • 这个阶段涉及在无标签数据上预训练LLM后,对形成的基础模型进行评估,并根据特定需求进行进一步的调整和优化。
      • 加载预训练权重 (Loading Pretrained Weights): 可以加载已有的预训练模型权重作为起点,以节省资源和时间。
      • 模型评估 (Model Evaluation): 对预训练的基础模型在标准基准测试集或特定任务上进行性能评估,以了解其通用能力和潜在瓶颈。
      • 微调 (Fine-tuning): 在一个更小、针对特定任务或领域的已标记数据集上进一步训练预训练好的模型。
    • 第三阶段:专业应用 (Phase 3: Specialized Applications)

      • 基础模型可以通过不同方向的微调进行特化,以适应具体的应用场景:
        • 分类微调 (Classification Fine-tuning): 使用包含类别标签的数据集进行微调,创建专门的分类器(例如,垃圾邮件分类、情感分析)。
        • 指令微调 (Instruction Fine-tuning): 使用包含指令和对应输出的数据集进行微调,创建能够理解并执行用户指令的个人助手或聊天模型(例如,进行问答、按要求翻译、生成特定风格的文本)。
    • 构建自定义LLM的优势:

      • 针对特定领域或专有数据可能表现更好。
      • 更好地控制数据隐私和安全。
      • 可根据需求进行本地部署,降低对外部服务的依赖。
      • 能够更灵活地调整模型架构和训练过程以满足特定需求。
  5. Transformer 架构简介与LLM的关系 :

    • 现代LLM大多依赖于2017年提出的Transformer架构。因此,“Transformer”和“大语言模型”这两个术语在文献中常被互换使用。
    • 重要区分 :
      • 并非所有Transformer都是大语言模型,因为Transformer也可用于计算机视觉等其他领域。
      • 同样,并非所有大语言模型都基于Transformer,因为也有基于循环 (recurrent) 和卷积 (convolutional) 架构的大语言模型。这些替代方法背后的主要动机是提高大语言模型的计算效率。这些替代的大语言模型架构能否与基于Transformer的大语言模型的能力相媲美,以及它们是否会在实际中被采用,仍有待观察。
    • 为简单起见,本书中使用的“大语言模型”一词特指类似于GPT的基于Transformer的大语言模型。(感兴趣的读者可在附录B中找到描述这些架构的文献参考。)
    • 原始Transformer架构包含编码器 (Encoder)(处理输入文本)和解码器 (Decoder)(生成输出文本)两个子模块。
    • 核心是自注意力机制 (Self-attention mechanism),允许模型在处理序列时权衡不同部分的重要性,有效捕捉长距离依赖关系。
    • BERT等模型主要利用编码器部分,适用于文本分类、命名实体识别等理解型任务。
    • GPT等模型主要利用解码器部分,擅长文本生成、对话等生成型任务。
  6. 嵌入 (Embeddings) 的概念与重要性:

    • 本质: 从本质上讲,嵌入是一种从离散对象(如单词、图像甚至整个文档)到连续向量空间中的点的映射。这些向量表示旨在捕捉对象的语义关系。
    • 目的: 嵌入的主要目的是将非数字数据(如文本)转换为神经网络可以有效处理和学习的数值格式。
    • 类型与应用: 虽然词嵌入是最常见的文本嵌入形式,但也存在用于句子、段落或整个文档的嵌入。句子或段落嵌入是检索增强生成 (Retrieval Augmented Generation, RAG) 的常用选择。检索增强生成将生成(如生成文本)与检索(如搜索外部知识库)相结合,以便在生成文本时提取相关信息,这是一种超出本书范围的技术。由于本书的目标是训练类似GPT的大语言模型,这些模型学习一次生成一个单词,因此将专注于词嵌入。
    • 维度: 词嵌入可以有不同的维度,从几十维到数千维不等。更高的维度可能会捕捉到更细微的语义关系和上下文信息,但代价是计算复杂度的增加和所需训练数据的增多。
  7. 大型数据集的应用与数据准备:

    • LLM的强大能力得益于其在包含数十亿甚至数万亿词语的庞大数据集(如CommonCrawl, WebText2, Books, Wikipedia等公开数据集,以及可能的专有数据集)上的训练。
    • 数据准备是预训练阶段的关键步骤,包括:
      • 数据收集: 从多种来源获取海量文本数据。
      • 数据清洗: 去除噪声、重复内容、格式转换等。
      • 数据过滤: 筛选高质量、相关的文本。
      • 分词 (Tokenization): 将文本切分成模型可以处理的单元(如单词、子词)。
      • 数据采样 (Data Sampling): 从大规模数据集中选择合适的子集进行训练,或者在混合不同来源数据时调整其比例,以确保数据的多样性和代表性。
    • 这些数据使得模型能够学习语言的句法规则、语义含义、上下文关联,甚至一定程度的常识和世界知识。
  8. GPT 架构的特点:

    • GPT (Generative Pre-trained Transformer) 模型通常是仅解码器 (decoder-only) 的Transformer架构,这使得其结构相比于包含编码器和解码器的完整Transformer更为简洁,特别适合生成任务。
    • 它们是自回归模型 (autoregressive model),即逐个词元 (token) 地生成文本。在生成每个新词元时,模型会将先前所有已生成的词元作为上下文输入,来预测下一个最可能的词元。

相关文章:

  • Kotlin 协程实战:实现异步值加载委托,对值进行异步懒初始化
  • 【C++】模板(初阶)
  • 数据库字段唯一性修复指南:从设计缺陷到规范实现
  • 嵌入式设计模式基础--C语言的继承封装与多态
  • 基于Python的量化交易实盘部署与风险管理指南
  • Spark的基础介绍
  • 玛哈特矫平机:金属板材加工中的“平整大师”
  • Spring Cloud Gateway 聚合 Swagger 文档:一站式API管理解决方案
  • 游戏引擎学习第278天:将实体存储移入世界区块
  • 基于springboot+vue的医院门诊管理系统
  • 鸿蒙OSUniApp 制作个人信息编辑界面与头像上传功能#三方框架 #Uniapp
  • Go 语言 net/http 包使用:HTTP 服务器、客户端与中间件
  • 【MySQL】自适应哈希详解:作用、配置以及如何查看
  • 5 WPF中的application对象介绍
  • 序列化和反序列化hadoop实现
  • mysql的一个缺点
  • C++.神经网络与深度学习(赶工版)(会二次修改)
  • e.g. ‘django.db.models.BigAutoField‘.
  • Nginx核心功能及同类产品对比
  • 什么是物联网 IoT 平台?
  • 竞彩湃|英超欧冠悬念持续,纽卡斯尔诺丁汉能否拿分?
  • 著名文博专家吴远明因交通事故离世,享年75岁
  • 上海博物馆展览进校园,“小先生”传递文物知识
  • 国寿资产获批参与第三批保险资金长期投资改革试点
  • 乌克兰官员与法德英美四国官员举行会谈
  • 河南信阳:对违规吃喝问题不遮丑不护短,露头就打、反复敲打