当前位置: 首页 > news >正文

AI的发展过程:深度学习中的自然语言处理(NLP);大语言模型(LLM)详解;Transformer 模型结构详解;大模型三要素:T-P-G 原则

AI的发展过程:深度学习中的自然语言处理(NLP);大语言模型(LLM)详解;Transformer 模型结构详解;大模型三要素:T-P-G 原则

  • AI的发展过程与大模型原理详解
    • 一、AI的发展过程
      • 符号主义(Symbolism)
      • 机器学习(Machine Learning)
      • 深度学习(Deep Learning)
    • 二、深度学习中的自然语言处理(NLP)
      • 核心任务包括:
      • NLP 的挑战
    • 三、大语言模型(LLM)详解
      • 模型目标
      • 应用范围
    • 四、Transformer 模型结构详解
      • 背景
      • 模块组成
      • 结构区分
      • 自注意力机制核心公式
      • Transformer 的工作原理
      • Transformer 优势
    • 五、大模型三要素:T-P-G 原则
      • T:神经网络(Transformer)
      • P:预训练(Pre-training)
      • G:生成能力(Generative)
    • 总结:AI 与 LLM 的演进路径

AI的发展过程与大模型原理详解

一、AI的发展过程

人工智能(Artificial Intelligence,简称 AI)是研究如何使计算机模拟人类智能行为的科学。从最初的符号逻辑到如今的大语言模型,AI 经过了几个重要的发展阶段。

符号主义(Symbolism)

符号主义是 AI 最早期的研究范式,兴起于 20 世纪 50-70 年代。它主张通过使用符号(symbol)和规则(rule)来模拟人类推理过程。代表系统如:专家系统(Expert System)、逻辑推理系统(Prolog)。

  • 核心思想:通过人类设定的规则系统处理问题。
  • 典型技术:专家系统(Expert System)
  • 特点:逻辑推理明确,但对未知情况无法泛化。
  • 限制:难以处理非结构化、模糊和变化的数据。

特点:

  • 使用显式规则(if-then)编码知识;
  • 对于结构化知识表现良好;
  • 难以处理模糊、感知类任务(如图像识别、自然语言理解);

机器学习(Machine Learning)

机器学习突破了符号主义“规则写死”的限制,核心思想是让机器“从数据中学习模式”,不再依赖手工规则。

  • 核心思想:利用数据训练模型,使其具备从经验中学习的能力。
  • 代表模型:KNN、SVM、决策树、随机森林等。
  • 特点:相较符号主义更具泛化能力,但依赖特征工程。

主要类型:

  • 监督学习(Supervised Learning):基于标注数据训练,如图像分类、垃圾邮件识别。
  • 无监督学习(Unsupervised Learning):挖掘数据潜在结构,如聚类、降维。
  • 强化学习(Reinforcement Learning):通过奖励信号学习策略,如 AlphaGo。

深度学习(Deep Learning)

深度学习是机器学习的一个子领域,使用“深层神经网络”自动从大量数据中提取特征。2006 年后,随着数据积累和算力提升,深度学习取得了爆发式进展。

  • 核心思想:使用多层神经网络自动提取高阶特征。
  • 关键技术:卷积神经网络(CNN)、循环神经网络(RNN)、Transformer。
  • 优势:能处理复杂模式识别任务,如图像识别、语音识别、自然语言理解。

典型应用:

  • 图像识别(如 CNN)
  • 自动驾驶(感知与决策)
  • 自然语言处理(NLP)

二、深度学习中的自然语言处理(NLP)

自然语言处理(Natural Language Processing,简称 NLP)是研究人与计算机之间使用自然语言(如中文、英文)进行通信的技术,是人工智能中使计算机理解、分析和生成自然语言的技术分支。

核心任务包括:

  • 文本分类:垃圾邮件识别、情感判断。
  • 命名实体识别(NER):识别人名、地名、组织名等。
  • 依存句法分析:分析词语之间的语法关系。
  • 机器翻译:如中英互译系统。
  • 问答系统:如智能客服、搜索问答。
  • 对话生成:如 ChatGPT 聊天系统。

早期 NLP 方法基于统计和特征工程,后逐步转向神经网络,最终发展出 Transformer 架构,彻底变革了 NLP 领域。

NLP 的挑战

  • 多义性:一个词可能有多个含义(如“苹果”是水果或品牌)。
  • 上下文依赖:意义常需结合上下文判断。
  • 长距离依赖:前后语句间可能存在深层语义联系。

三、大语言模型(LLM)详解

大语言模型(Large Language Model)是基于深度神经网络的自然语言处理系统,通常使用数十亿乃至万亿级别的参数对海量文本进行建模。

模型目标

基于已有文本预测下一个最可能出现的 token(词片段)。

示例
输入:“我今天吃了一个”
预测输出:苹果(75%)、橘子(15%)、手机(5%)等

应用范围

  • 文本生成
  • 语言翻译
  • 语义检索与摘要
  • 自动代码补全(如 Copilot)
  • 问答与对话(如 ChatGPT、Claude)

四、Transformer 模型结构详解

背景

Transformer 是 2017 年由 Google 提出的神经网络架构,首次完全抛弃了 RNN(循环神经网络)和 CNN(卷积神经网络),改用“自注意力机制”(Self-Attention)处理序列数据。

模块组成

  1. 输入嵌入(Embedding)
    • 将词语转换为向量表示。
  2. 位置编码(Positional Encoding)
    • 弥补模型缺乏顺序感的缺陷。
  3. 多头自注意力机制(Multi-Head Self-Attention)
    • 每个词关注句中其他所有词,捕捉全局依赖。
  4. 前馈神经网络(Feed Forward)
    • 提取和转换表示向量。
  5. 残差连接与层归一化(Residual + LayerNorm)
    • 加速训练,防止梯度消失。

结构区分

  • Encoder:用于理解输入。
  • Decoder:用于生成输出。
  • GPT 类模型:仅使用 Decoder 架构进行文本生成。

自注意力机制核心公式

对于每个 token,计算:

Attention(Q, K, V) = softmax(QK^T / √d_k) × V

其中:

  • Q(Query)、K(Key)、V(Value)是输入向量的线性变换;
  • softmax 确定注意力权重。

Transformer 的工作原理

  1. 输入嵌入(Embedding):将文本中的每个词转为向量表示。
  2. 位置编码(Positional Encoding):由于 Transformer 无序,需要加上位置信息。
  3. 自注意力机制(Self-Attention):每个词根据整个句子中的其他词计算注意力权重,实现对上下文的理解。
  4. 前馈神经网络(Feed Forward):用于特征提取和非线性变换。
  5. 层叠结构(Stacked Layers):多层编码器-解码器堆叠。
  6. 输出预测(Softmax):根据词向量生成概率分布,输出下一个词。

Transformer 优势

  • 并行计算效率高(相比 RNN)
  • 捕捉长距离依赖效果更好
  • 可扩展性强,适合训练大模型

五、大模型三要素:T-P-G 原则

LLM 实际是由多个核心机制协同工作的结果,主要可归结为 “T-P-G” 三个部分。

T:神经网络(Transformer)

Transformer 是大语言模型的结构核心。它处理自然语言的输入,将其转化为高维向量,并通过多层注意力机制和神经网络提取语义特征,构建对语言的“理解能力”。

P:预训练(Pre-training)

  • 目标:利用大规模语料学习通用语言规律。
  • 方法:遮蔽语言建模(如 BERT)或自回归语言建模(如 GPT)。
  • 成果:形成“通用知识大脑”,具备语言表达、逻辑、常识能力。

LLM 的强大能力来源于对海量通用文本(如百科、新闻、代码等)的预训练。

训练目标通常是:

  • 掌握词法、语法、句法结构;
  • 理解语境中的含义、关系;
  • 预测缺失或下一个词(masked language model 或 causal language model);

训练分为两个阶段:

  1. 预训练(Pre-training)

    • 使用海量通用文本(如维基百科、新闻、社交媒体等)
    • 模型学习语言的基础规律,如语法、词性、上下文
  2. 微调(Fine-tuning)

    • 针对特定任务或领域(如医学、法律)
    • 继续训练模型,以适配具体应用场景

由于预训练的数据多为通用内容,预训练让模型具备了“普通知识”,但不具备“专精能力”,这就需要微调来提升。但在特定领域(如法律、医学)使用前需要微调(Fine-tuning)

G:生成能力(Generative)

  • Token 级预测:一次生成一个 token,不断叠加形成完整文本。
  • 采样策略:贪婪搜索、Top-k、Top-p、温度控制等方法控制生成多样性与连贯性。
  • 注意:生成结果源于概率,不代表事实或逻辑一致性。

生成过程本质是“语言建模”:

  • 给定一段文本上下文(prompt),预测下一个最合适的词(token);
  • 实现方式是:模型输出一个向量,表示每个可能词的概率,选出最可能或最优的一个;
  • 该过程逐个 Token 生成,逐步构建完整文本;

💡 计算机并不理解“文字”,它只处理 Token(分词后映射为整数),最终再将这些整数映射回字符呈现。Token 是语言的最小处理单元:可能是字母、汉字、词根、词缀。模型生成的是 token 序列,而非完整词语或句子。


总结:AI 与 LLM 的演进路径

符号主义 ➝ 机器学习 ➝ 深度学习 ➝ NLP ➝ Transformer ➝ LLM(GPT 等)

大语言模型的发展,是多个领域长期积累与突破的结果。它结合了深度学习、语言建模、注意力机制等多种前沿技术,开启了智能生成与认知计算的新纪元。

相关文章:

  • 《HarmonyOSNext弹窗:ComponentContent动态玩转企业级弹窗》
  • 告别excel:AI 驱动的数据分析指南
  • CentOS7自带的yum依然无法联网到官方源
  • 【C/C++】怎样设计一个合理的函数
  • 相机--单目相机
  • 7. 整数反转
  • Linux 内核 Slab 分配器核心组件详解
  • 基于51单片机和8X8点阵屏、独立按键的跳跃躲闪类小游戏
  • 如何在同一台电脑上安装并运行多个版本的 IntelliJ IDEA
  • xilinx的GT配置说明(一)
  • 【考研数学:高数6】一元函数微分学的应用(二)——中值定理、微分等式和微分不等式
  • AT2659低噪声放大器芯片
  • [KCTF]rev_babyrev
  • 永磁同步电机控制算法--抗饱和PI
  • C#winform画图代码记录
  • 基于地形数据计算山体阴影
  • YOLO-FireAD:通过混合注意力与双池化融合实现高精度实时火灾检测
  • 专题:2025中国游戏科技发展白皮书报告汇总解读|附130+份报告PDF汇总下载
  • Java中的设计模式:23种经典模式在实际项目中的应用案例
  • 行为设计模式之Observer(观察者)
  • 做百度竞价用什么网站/企业网站推广公司
  • 家具建设企业网站/宁波seo服务
  • 模版网站怎么做/事件营销的案例有哪些
  • 合肥市网站建设/广告关键词有哪些类型
  • 明薇通网站建设首选/外贸推广平台哪个好
  • 好站站网站建设/推广平台的方式有哪些