Happy-LLM task2 第一章 NLP 基础概念(2天)
NLP 基础概念简介
自然语言处理(Natural Language Processing,NLP)是人工智能领域的核心分支,旨在让计算机理解、处理并生成人类语言,实现人机自然交互。
一、NLP 定义与目标
NLP 融合计算机科学、语言学、心理学等多学科知识,通过算法让计算机模拟人类的语言认知过程。其核心目标是打破自然语言与机器语言的壁垒,使计算机能处理语义、语境、情感等复杂语言要素,完成从基础分词到深层语义理解的任务。
二、NLP 发展历程
-
早期探索(1940s-1960s)
- 以规则驱动为主,如机器翻译依赖字典查找和词序规则,效果有限。
- 图灵测试(1950年)和乔姆斯基生成语法理论为后续研究奠定基础。
-
符号主义与统计方法(1970s-1990s)
- 研究者分为“规则派”(关注形式语言)和“统计派”(侧重概率模型)。
- 1980年代后,统计模型逐步取代手写规则,推动NLP向数据驱动转型。
-
机器学习与深度学习(2000s至今)
- 循环神经网络(RNN)、长短期记忆网络(LSTM)等深度学习模型广泛应用。
- 2013年Word2Vec开创词向量表示时代,2018年BERT引领预训练语言模型浪潮,GPT系列等大模型进一步提升文本生成与理解能力。
三、NLP 核心任务
-
中文分词(CWS)
- 将连续中文文本切分为有意义的词汇序列(如“今天天气真好”→“今天/天气/真/好”),是后续处理的基础。
-
子词切分
- 将单词分解为更小单位(如“unhappiness”→“un/happi/ness”),解决罕见词处理问题,常见于BERT等模型。
-
词性标注(POS Tagging)
- 为单词分配词性标签(如“她在弹吉他”中“弹”标注为动词),辅助句法分析。
-
文本分类
- 将文本自动归类(如新闻分为“体育”“政治”等),应用于情感分析、垃圾邮件过滤等场景。
-
实体识别(NER)
- 提取文本中的命名实体(如人名、地名、组织名),如“北京是中国首都”中识别“北京”“中国”。
-
关系抽取
- 识别实体间语义关系(如“比尔·盖茨是微软创始人”中的“创始人”关系),用于构建知识图谱。
-
文本摘要
- 生成文本的简洁概括,分为抽取式(直接选关键句)和生成式(重新组织语义)。
-
机器翻译
- 将一种语言自动译为另一种语言,如“今天天气好”→“The weather is nice today”。
-
自动问答(QA)
- 计算机理解问题并给出答案,涉及信息检索、推理等技术,如智能客服。
四、文本表示发展
文本表示是将自然语言转换为计算机可处理的数字形式,直接影响NLP系统性能:
-
词向量模型
- 向量空间模型(VSM):用高维向量表示文本,权重由词频(TF)、逆文档频率(TF-IDF)计算,但存在数据稀疏性问题。
- Word2Vec(2013):通过上下文学习词的密集向量表示(如“国王-男人+女人≈王后”),分为CBOW和Skip-Gram架构。
-
语言模型
- N-gram:基于马尔可夫假设,用前N-1个词预测当前词概率(如bigram用前一个词预测下一个词),简单但无法捕捉长距离依赖。
-
预训练模型
- ELMo(2018):首次引入预训练思想,用双向LSTM生成动态词向量,解决一词多义问题,但计算成本高。
五、总结与挑战
NLP已从规则驱动发展到深度学习主导,在机器翻译、问答系统等领域取得显著进展,但仍面临歧义处理、隐喻理解、跨文化语境等挑战。未来,更大规模的预训练模型、多模态融合及更精细的语义建模将是重要发展方向。