AI的发展过程:深度学习中的自然语言处理(NLP);大语言模型(LLM)详解;Transformer 模型结构详解;大模型三要素:T-P-G 原则
AI的发展过程:深度学习中的自然语言处理(NLP);大语言模型(LLM)详解;Transformer 模型结构详解;大模型三要素:T-P-G 原则
- AI的发展过程与大模型原理详解
- 一、AI的发展过程
- 符号主义(Symbolism)
- 机器学习(Machine Learning)
- 深度学习(Deep Learning)
- 二、深度学习中的自然语言处理(NLP)
- 核心任务包括:
- NLP 的挑战
- 三、大语言模型(LLM)详解
- 模型目标
- 应用范围
- 四、Transformer 模型结构详解
- 背景
- 模块组成
- 结构区分
- 自注意力机制核心公式
- Transformer 的工作原理
- Transformer 优势
- 五、大模型三要素:T-P-G 原则
- T:神经网络(Transformer)
- P:预训练(Pre-training)
- G:生成能力(Generative)
- 总结:AI 与 LLM 的演进路径
AI的发展过程与大模型原理详解
一、AI的发展过程
人工智能(Artificial Intelligence,简称 AI)是研究如何使计算机模拟人类智能行为的科学。从最初的符号逻辑到如今的大语言模型,AI 经过了几个重要的发展阶段。
符号主义(Symbolism)
符号主义是 AI 最早期的研究范式,兴起于 20 世纪 50-70 年代。它主张通过使用符号(symbol)和规则(rule)来模拟人类推理过程。代表系统如:专家系统(Expert System)、逻辑推理系统(Prolog)。
- 核心思想:通过人类设定的规则系统处理问题。
- 典型技术:专家系统(Expert System)
- 特点:逻辑推理明确,但对未知情况无法泛化。
- 限制:难以处理非结构化、模糊和变化的数据。
特点:
- 使用显式规则(if-then)编码知识;
- 对于结构化知识表现良好;
- 难以处理模糊、感知类任务(如图像识别、自然语言理解);
机器学习(Machine Learning)
机器学习突破了符号主义“规则写死”的限制,核心思想是让机器“从数据中学习模式”,不再依赖手工规则。
- 核心思想:利用数据训练模型,使其具备从经验中学习的能力。
- 代表模型:KNN、SVM、决策树、随机森林等。
- 特点:相较符号主义更具泛化能力,但依赖特征工程。
主要类型:
- 监督学习(Supervised Learning):基于标注数据训练,如图像分类、垃圾邮件识别。
- 无监督学习(Unsupervised Learning):挖掘数据潜在结构,如聚类、降维。
- 强化学习(Reinforcement Learning):通过奖励信号学习策略,如 AlphaGo。
深度学习(Deep Learning)
深度学习是机器学习的一个子领域,使用“深层神经网络”自动从大量数据中提取特征。2006 年后,随着数据积累和算力提升,深度学习取得了爆发式进展。
- 核心思想:使用多层神经网络自动提取高阶特征。
- 关键技术:卷积神经网络(CNN)、循环神经网络(RNN)、Transformer。
- 优势:能处理复杂模式识别任务,如图像识别、语音识别、自然语言理解。
典型应用:
- 图像识别(如 CNN)
- 自动驾驶(感知与决策)
- 自然语言处理(NLP)
二、深度学习中的自然语言处理(NLP)
自然语言处理(Natural Language Processing,简称 NLP)是研究人与计算机之间使用自然语言(如中文、英文)进行通信的技术,是人工智能中使计算机理解、分析和生成自然语言的技术分支。
核心任务包括:
- 文本分类:垃圾邮件识别、情感判断。
- 命名实体识别(NER):识别人名、地名、组织名等。
- 依存句法分析:分析词语之间的语法关系。
- 机器翻译:如中英互译系统。
- 问答系统:如智能客服、搜索问答。
- 对话生成:如 ChatGPT 聊天系统。
早期 NLP 方法基于统计和特征工程,后逐步转向神经网络,最终发展出 Transformer 架构,彻底变革了 NLP 领域。
NLP 的挑战
- 多义性:一个词可能有多个含义(如“苹果”是水果或品牌)。
- 上下文依赖:意义常需结合上下文判断。
- 长距离依赖:前后语句间可能存在深层语义联系。
三、大语言模型(LLM)详解
大语言模型(Large Language Model)是基于深度神经网络的自然语言处理系统,通常使用数十亿乃至万亿级别的参数对海量文本进行建模。
模型目标
基于已有文本预测下一个最可能出现的 token(词片段)。
示例:
输入:“我今天吃了一个”
预测输出:苹果(75%)、橘子(15%)、手机(5%)等
应用范围
- 文本生成
- 语言翻译
- 语义检索与摘要
- 自动代码补全(如 Copilot)
- 问答与对话(如 ChatGPT、Claude)
四、Transformer 模型结构详解
背景
Transformer 是 2017 年由 Google 提出的神经网络架构,首次完全抛弃了 RNN(循环神经网络)和 CNN(卷积神经网络),改用“自注意力机制”(Self-Attention)处理序列数据。
模块组成
- 输入嵌入(Embedding)
- 将词语转换为向量表示。
- 位置编码(Positional Encoding)
- 弥补模型缺乏顺序感的缺陷。
- 多头自注意力机制(Multi-Head Self-Attention)
- 每个词关注句中其他所有词,捕捉全局依赖。
- 前馈神经网络(Feed Forward)
- 提取和转换表示向量。
- 残差连接与层归一化(Residual + LayerNorm)
- 加速训练,防止梯度消失。
结构区分
- Encoder:用于理解输入。
- Decoder:用于生成输出。
- GPT 类模型:仅使用 Decoder 架构进行文本生成。
自注意力机制核心公式
对于每个 token,计算:
Attention(Q, K, V) = softmax(QK^T / √d_k) × V
其中:
- Q(Query)、K(Key)、V(Value)是输入向量的线性变换;
- softmax 确定注意力权重。
Transformer 的工作原理
- 输入嵌入(Embedding):将文本中的每个词转为向量表示。
- 位置编码(Positional Encoding):由于 Transformer 无序,需要加上位置信息。
- 自注意力机制(Self-Attention):每个词根据整个句子中的其他词计算注意力权重,实现对上下文的理解。
- 前馈神经网络(Feed Forward):用于特征提取和非线性变换。
- 层叠结构(Stacked Layers):多层编码器-解码器堆叠。
- 输出预测(Softmax):根据词向量生成概率分布,输出下一个词。
Transformer 优势
- 并行计算效率高(相比 RNN)
- 捕捉长距离依赖效果更好
- 可扩展性强,适合训练大模型
五、大模型三要素:T-P-G 原则
LLM 实际是由多个核心机制协同工作的结果,主要可归结为 “T-P-G” 三个部分。
T:神经网络(Transformer)
Transformer 是大语言模型的结构核心。它处理自然语言的输入,将其转化为高维向量,并通过多层注意力机制和神经网络提取语义特征,构建对语言的“理解能力”。
P:预训练(Pre-training)
- 目标:利用大规模语料学习通用语言规律。
- 方法:遮蔽语言建模(如 BERT)或自回归语言建模(如 GPT)。
- 成果:形成“通用知识大脑”,具备语言表达、逻辑、常识能力。
LLM 的强大能力来源于对海量通用文本(如百科、新闻、代码等)的预训练。
训练目标通常是:
- 掌握词法、语法、句法结构;
- 理解语境中的含义、关系;
- 预测缺失或下一个词(masked language model 或 causal language model);
训练分为两个阶段:
-
预训练(Pre-training):
- 使用海量通用文本(如维基百科、新闻、社交媒体等)
- 模型学习语言的基础规律,如语法、词性、上下文
-
微调(Fine-tuning):
- 针对特定任务或领域(如医学、法律)
- 继续训练模型,以适配具体应用场景
由于预训练的数据多为通用内容,预训练让模型具备了“普通知识”,但不具备“专精能力”,这就需要微调来提升。但在特定领域(如法律、医学)使用前需要微调(Fine-tuning)。
G:生成能力(Generative)
- Token 级预测:一次生成一个 token,不断叠加形成完整文本。
- 采样策略:贪婪搜索、Top-k、Top-p、温度控制等方法控制生成多样性与连贯性。
- 注意:生成结果源于概率,不代表事实或逻辑一致性。
生成过程本质是“语言建模”:
- 给定一段文本上下文(prompt),预测下一个最合适的词(token);
- 实现方式是:模型输出一个向量,表示每个可能词的概率,选出最可能或最优的一个;
- 该过程逐个 Token 生成,逐步构建完整文本;
💡 计算机并不理解“文字”,它只处理 Token(分词后映射为整数),最终再将这些整数映射回字符呈现。Token 是语言的最小处理单元:可能是字母、汉字、词根、词缀。模型生成的是 token 序列,而非完整词语或句子。
总结:AI 与 LLM 的演进路径
符号主义 ➝ 机器学习 ➝ 深度学习 ➝ NLP ➝ Transformer ➝ LLM(GPT 等)
大语言模型的发展,是多个领域长期积累与突破的结果。它结合了深度学习、语言建模、注意力机制等多种前沿技术,开启了智能生成与认知计算的新纪元。