当前位置：首页 > news >正文

AI大白话（四）：自然语言处理——AI是如何理解和生成人类语言的？

news 2025/7/2 0:07:15

🌟引言：
专栏：《AI大白话》

AI大白话（一）：5分钟了解AI到底是什么？
AI大白话（二）：机器学习——AI是怎么“学习“的？
AI大白话（三）：深度学习——AI的‘大脑‘是如何构建的？

大家好！欢迎回到"AI大白话"系列。前面我们聊了AI的基本概念、机器学习的原理和深度学习的"大脑"构建。今天，我们来聊聊一个更贴近我们日常生活的话题：自然语言处理（NLP）——也就是AI如何理解和生成人类语言。

名人说：苔花如米小，也学牡丹开。——袁枚《苔》
创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder😊）

目录

一、什么是自然语言处理？
二、为什么自然语言处理这么难？
三、自然语言处理的基本流程
1. 文本预处理：洗脸刷牙
2. 文本表示：把文字变成数字
3. 文本理解：理解句子的含义
4. 文本生成：让AI说人话

四、NLP的核心技术演进：从规则到深度学习
1. 规则时代：靠人工定规则
2. 统计时代：数据说话
3. 深度学习时代：模型更强大
1️⃣循环神经网络（RNN）和长短期记忆网络（LSTM）
2️⃣Transformer：注意力集中
3️⃣预训练语言模型：站在巨人肩膀上

五、NLP在生活中的应用：无处不在的语言AI
1. 智能助手：你的24小时秘书
2. 搜索引擎：不只是关键词匹配
3. 机器翻译：跨越语言的鸿沟
4. 聊天机器人：永不疲倦的客服
5. 内容推荐：懂你的阅读偏好
6. 智能写作：AI助手帮你写

六、自然语言处理的未来发展：更懂人、更像人
1. 多模态理解：不只听"说"，还看"表情"
2. 常识推理：不只是字面意思
3. 情感和意图理解：读懂言外之意
4. 个性化交流：适应不同人的表达习惯
5. 低资源语言支持：关注"小众"语言

七、小结：AI理解语言，长路漫漫

很高兴你打开了这篇博客，更多好用的软件工具，请关注我、订阅专栏《AI大白话》，内容持续更新中…

一、什么是自然语言处理？

在这里插入图片描述

自然语言处理，简称 NLP，是让计算机能够理解、处理和生成人类语言的技术。

想象一下，你每天都在做的事情：和朋友聊天、阅读新闻、写微信消息、问百度一个问题…这些对我们来说再简单不过的事情，对计算机来说却是巨大的挑战！

为什么呢？

因为人类语言是复杂、多变且充满歧义的。

当我们说 “这家店的苹果真好吃” 时，我们知道是指水果；

当说 “我想买个新苹果手机” 时，我们又知道是指品牌。

而这种看似不起眼的区分，对人类来说很容易，实际上让计算机来理解很困难。

在这里插入图片描述

二、为什么自然语言处理这么难？

把人类语言教给计算机，或许比教一个3岁小孩说话还要困难。

在这里插入图片描述

主要有这几个原因：

语言的歧义性：同一个词或句子可能有多种含义。例如 “方便面” 中的 “方便”，“你懂我意思” 中的 “意思”。
语言的复杂性：语法规则复杂，还有大量的特例和习惯用法。
上下文依赖：理解一句话常常需要前后文甚至更广泛的知识背景。比如"他很冷"，是指天气冷还是性格冷漠？
文化和隐含意义：语言中包含大量的文化背景和隐含意义。当我们说"这个人很火"，并不是说他被烧着了！
语言的变化：语言在不断变化，新词语、新表达方式不断出现。“打call”、"yyds"这些网络用语几年前根本不存在。

三、自然语言处理的基本流程

那么，AI是如何一步步学会理解和生成人类语言的呢？

让我们用一个简单的比喻：如果把AI处理语言比作学生做阅读理解题，那么它需要经历以下几个阶段：

在这里插入图片描述

1. 文本预处理：洗脸刷牙

就像我们起床后要洗脸刷牙一样，AI在处理文本前，也需要进行"清洁"工作：

在这里插入图片描述

分词：把一段文本切分成一个个词语。中文分词比英文更难，因为英文单词之间有空格，而中文没有。
例如：“我爱自然语言处理” → “我”、“爱”、“自然”、“语言”、“处理”
去除停用词：去掉没有实质意义的词，如"的"、“了”、"是"等。
词形还原：将不同形式的词还原为基本形式，如"跑步"、“跑”、"跑着"都还原为同一个词。
词性标注：标记每个词的词性，如名词、动词、形容词等。

2. 文本表示：把文字变成数字

计算机不认识文字，只认识数字。

在这里插入图片描述

所以我们需要把文字转换成数字或向量：

在这里插入图片描述

独热编码（One-hot）：用一个很长的向量表示一个词，向量中只有一个位置是1，其他位置都是0。简单但效率低。
词嵌入（Word Embedding）：用一个密集的向量（比如300个数字）表示一个词，相似的词在向量空间中距离更近。
例如，"国王"和"王后"的向量会比"国王"和"苹果"的向量更接近。

我们可以把词嵌入想象成给每个词分配一个坐标位置，相似含义的词会被安排在相近的位置。

在这里插入图片描述