当前位置: 首页 > news >正文

自然语言处理NLP期末复习

目录

    • 第一章
      • 1. NLP的基本过程包括哪些-自然语言处理面临的困难是什么
      • 2. 自然语言处理算法定义,过程和应用
      • 3. 结合自己的研究-描述研究中涉及的自然语言处理模型或算法,模型或算法原理,具体的处理过程
      • 4. 自然语言处理的的两大核心任务是
      • 5. 程序设计语言的编译系统与自然语言处理系统的区别是什么
    • 第二章-语料库
      • 6. 什么是语料库-常见的语料加工方法(汉语分词方法)及其优缺点是什么
      • 7. 什么是语料库·语料库和数据集的关系是什么
      • 8. 关于语料库的三点基本认识
      • 9. 语料库的类型
      • 10. 歧义消解与语料库加工的关系
      • 11. 语料处理的基本问题
      • 12. 经典语料库
    • 第三章-语言模型
      • 13. 什么是语言模型-常见的建模语言模型的方法有哪些。
      • 14. 零概率产生的原因-解决办法
      • 15. 常见的统计语言模型容易出现零概率问题-请简述一种方法对其进行处理
      • 16. 常见的数据平滑技术
      • 17. 语言模型的性能评价
    • 第四章-马尔可夫模型
    • 第五章 字符编码与字频统计
      • 18. 统计某中文语料中名词出现次数-请简述其处理过程。
    • 第六章-词法分析
      • 19. 词法分析的任务
      • 20. 简述词干提取与形态还原的区别
      • 21. 英语断词过程中容易引起歧义的符号
    • 第七章-汉语自动分词
      • 22. 汉语自动分词的基本问题有哪些-请简述至少一种分词方法及其处理过程。
      • 23. 分词方法
      • 24. 汉语自动分词的主要评测指标
    • 第八章-词性标注
      • 25. 词性标注,句法分析的主要方法(NLP的基本方法)
      • 26. 画出一种经典的基于循环神经网络的词性标注架构图
    • 第九章-句法结构
      • 27. 短语结构
      • 28. 歧义消解办法
    • 第十章-语义分析
      • 29. 语义分析的主要研究内容
      • 30. 词义消歧vs.词性消歧
    • 应用题
      • 31. 两种概率估计
      • 32. 架构图

第一章

1. NLP的基本过程包括哪些-自然语言处理面临的困难是什么

文本预处理、特征提取、模型训练、评估
语言歧义性、未知语言现象

文本预处理,包括分词、去除停用词、词干提取或词形还原等操作,目的是将原始文本转化为结构化的数据形式;
特征提取,将处理后的文本转换为数值表示,如词袋模型、TF-IDF 或词嵌入(如 Word2Vec、BERT);
模型训练,使用机器学习或深度学习模型(如 SVM、RNN、Transformer)对文本进行建模,完成分类、生成、翻译等任务;
评估,通过准确率、召回率、F1 值等指标对模型性能进行评估。

语言的歧义性,包括词义歧义、句法歧义和语义歧义,使模型难以准确理解真实意图;
未知语言现象(如新词、网络用语、方言等)也给模型泛化能力带来挑战,影响其在实际场景中的表现。

2. 自然语言处理算法定义,过程和应用

是人工智能领域的主要内容,研究用电子计算机模拟 人的语言交际过程,使计算机能理解和运用人类社会 的自然语言,实现人机之间的自然语言通信,以代替人的部分脑力劳动。NLP算法的原理主要基于语言学规则和知识、统计模型以及近年来广泛应用的深度学习技术。

从应用角度来看,NLP技术广泛应用于以下领域:

机器翻译:如Google Translate、百度翻译等,基于Transformer等模型实现多语言自动翻译。
语音识别与合成:如智能助手(Siri、Alexa)、语音输入法,涉及语音转文字(ASR)和文字转语音(TTS)。
信息检索与问答系统:搜索引擎(如百度、Google)中的查询理解和文档排序,以及智能客服中的问答匹配。
情感分析与舆情监控:用于社交媒体分析、品牌监测、用户评论分析等场景。
聊天机器人与对话系统:如客服机器人、虚拟助手,依赖于意图识别、对话状态追踪和自然语言生成技术。
文本摘要与自动写作:自动生成新闻摘要、报告撰写、创意写作辅助等。
命名实体识别与知识图谱构建:用于信息抽取、数据清洗、知识管理等领域。
总之,自然语言处理算法的核心在于对语言的建模与理解,其应用涵盖了从人机交互到内容生成的方方面面,正在不断推动智能化社会的发展。

3. 结合自己的研究-描述研究中涉及的自然语言处理模型或算法,模型或算法原理,具体的处理过程

本研究围绕中文社交媒体文本的情感分析展开,采用基于 BERT 的预训练语言模型进行文本情感分类。

模型原理:BERT(Bidirectional Encoder Representations from Transformers)是一种基于 Transformer 架构的深度语言表示模型,它通过 Masked Language Model(MLM)和 Next Sentence Prediction(NSP)两个任务进行预训练,能够捕捉上下文中的双向语义信息。在情感分类任务中,BERT 将输入文本编码为包含丰富语义信息的向量序列,最后通过一个全连接层输出情感类别(如正面、负面、中性)。

具体处理过程如下:

数据预处理:对原始文本进行清洗、去除特殊符号、统一繁简体;
分词与标注:使用中文分词工具进行分词,并对每条数据进行情感标注;
输入构造:将文本转换为 BERT 可接受的数据类型;
模型微调:在已有中文 BERT 预训练模型基础上,添加分类层,使用交叉熵损失函数进行 fine-tuning;
情感预测:对新输入文本进行推理,输出其情感类别及置信度。
该方法相比传统 SVM 或 LSTM 方法,在多个测试集上取得了更高的准确率和 F1 值,尤其在处理歧义表达和网络用语方面表现更优。

4. 自然语言处理的的两大核心任务是

自然语言理解、自然语言生成

自然语言理解旨在让计算机能够准确地解析和理解人类语言的语义、意图和结构,包括诸如情感分析、信息抽取、语义角色标注等任务;
而自然语言生成则是将结构化的数据或计算机内部的语义表示转化为自然流畅的人类语言,广泛应用于机器翻译、文本摘要、对话系统等领域。
这两项任务相辅相成,共同构成了人机语言交互的基础。

5. 程序设计语言的编译系统与自然语言处理系统的区别是什么

处理对象不同
目标功能不同
规则和方法不同
结果准确性不同
场景不同

处理对象不同:编译系统主要处理的是遵循特定编程语言语法和语义规则的代码。这些代码具有严格的结构和逻辑,错误率低且意图明确。而NLP系统处理的是人类日常使用的自然语言文本,这类文本充满了变化、不规范性和模糊性。
目标功能不同:编译系统的目标是将源代码转换为目标机器可以执行的机器码或中间代码,实现程序从高级语言到机器可执行形式的转换。相比之下,NLP系统的目标更加多样化,包括但不限于文本理解、信息抽取、情感分析、自动翻译等,旨在让计算机理解和生成自然语言。
规则和方法不同:编译系统依赖于确定性的语法规则和算法来进行词法分析、语法分析、语义分析以及代码优化等一系列过程。NLP系统则更多地依赖于统计模型和机器学习方法来处理自然语言的复杂性和不确定性,尽管也会用到一些基于规则的方法。
结果准确性不同:由于编程语言的严格性和确定性,编译系统在大多数情况下能够产生准确无误的结果。然而,NLP系统因为要处理自然语言中的歧义、多义性等问题,其处理结果往往难以达到百分之百的准确,尤其是在涉及深层次语义理解时。
场景不同:编译系统主要用于软件开发领域,支持开发者编写高效、正确的程序。NLP系统则广泛应用于各种需要处理或生成自然语言的场景中,如搜索引擎、智能客服、机器翻译、社交媒体监控等,目的是提高人机交互的自然度和效率。

在这里插入图片描述

第二章-语料库

6. 什么是语料库-常见的语料加工方法(汉语分词方法)及其优缺点是什么

语料库是指按照一定条件存储在计算机中的大规模语言材料的集合,它为自然语言处理提供了基础数据支持

人工、自动、半自动
人工优点:准确
人工缺点:非常昂贵,需要大量的人力资源
自动缺点:不完全准确
半自动优点:兼顾两者的优点
先由计算机对待加工的语料进行自动加工,然后由人工校对
由计算机自动选择语料库中需要人干预的自动加工不能解决的部分,从而减少人工作

语料库是指按照一定条件存储在计算机中的大规模语言材料的集合,它为自然语言处理提供了基础数据支持。
常见的语料加工方法包括人工、自动和半自动三种方式。
人工加工能够保证非常高的准确性,但其缺点是成本昂贵且需要大量的人力资源;
自动加工虽然效率高、速度快,但由于技术限制,往往存在不完全准确的问题;
半自动加工结合了前两者的优点,首先由计算机对待加工的语料进行初步自动加工,然后针对其中计算机无法解决的部分由人工进行校对和修正。这种方法不仅利用了计算机高效处理的能力,也通过人工干预确保了最终结果的准确性,同时还能通过让计算机自动选择需要人干预的部分来进一步减少人力需求,从而提高整体工作效率和质量。

7. 什么是语料库·语料库和数据集的关系是什么

数据集可以是各个领域的数据(文本、图像、视频),语料库是其中的一部分
从广义上讲,语料库是数据集的一种特殊形式;而数据集是一个更广泛的概念,可以包含来自各个领域的数据,如文本、图像、音频、视频等。因此,语料库可以被看作是以文本语言为主要对象的数据集,它在数据结构和用途上更具语言学特征和NLP应用场景的针对性。
两者的关系可以理解为:语料库是数据集中专注于语言资源的一个子集

8. 关于语料库的三点基本认识

  • 语料库中存放的是在语言的实际使用中真实出现 过的语言材料
    • 语料库是以电子计算机为载体、承载语言知识的 基础资源
    • 真实语料需要经过加工(分析和处理),才能成为 有用的资源

9. 语料库的类型

通用语料库与专用语料库
单语语料库与多语语料库
共时语料库与历时语料库
生语料库与熟语料库

通用语料库与专用语料库:

通用语料库是指涵盖广泛主题和文体的语料集合,如新闻、小说、科技论文、政府文件等,旨在反映语言的整体使用情况,适用于基础语言研究和通用自然语言处理任务。例如《现代汉语语料库》。
专用语料库则针对某一特定领域或用途建立,如医学语料库、法律语料库、儿童语言发展语料库等,主要用于专业领域的语言分析和模型训练。
单语语料库与多语语料库:

单语语料库由一种语言的文本组成,用于研究该语言的语言结构、词汇分布、句法特征等,是大多数NLP任务的基础资源。
多语语料库包含两种或多种语言的文本,常用于机器翻译、跨语言信息检索等领域。其中,如果这些文本之间存在对应关系(如同一篇文章的不同语言版本),则称为平行语料库。

共时语料库与历时语料库:

共时语料库收集的是同一时期或时间段内的语言材料,用于研究某一时期语言的使用状况和特点。
历时语料库则跨越多个时间阶段,包含了不同时期的语言资料,有助于观察语言的发展变化过程,适合语言演变、历史语言学等方面的研究。

生语料库与熟语料库:

生语料库指的是未经加工或标注的原始文本集合,通常直接来源于实际语境,如网页、书籍扫描件、语音转录文本等。它适用于需要大规模未标注数据的任务,如语言建模、词向量训练等。
熟语料库则是经过人工或自动处理、标注后的语料库,可能包含分词、词性标注、句法结构、命名实体标签等信息,适合进行深入的语言分析和高质量模型训练,如《人民日报标注语料库》。

10. 歧义消解与语料库加工的关系

高性能的歧义消解技术是实现语料库加工自动化的关键
语料库特别是经过加工的语料库又为歧义消解提供了资源支持

11. 语料处理的基本问题

在这里插入图片描述

12. 经典语料库

中文:北京大学语料库

英文:LOB语料库,宾夕法尼亚树库,布朗语料库

第三章-语言模型

13. 什么是语言模型-常见的建模语言模型的方法有哪些。

语言模型是对单词序列的概率分布进行建模的统计模型,旨在评估一个句子或词序列在某种语言中出现的可能性。
常见的建模方法包括:

  • n元语法(n-gram)模型,它通过计算前n个词出现的情况下第n+1个词出现的概率来预测词序列;基于缓存的n-gram模型(Cache-based N-gram Model),该模型结合了局部上下文信息和全局统计信息,以提高对未登录词和长尾词的处理能力;
  • 跳跃模型(Skipping Models),允许在估计概率时跳过某些词,从而捕捉更长距离的依赖关系;
  • 以及神经网络语言模型,利用深度学习技术如RNN、LSTM或Transformer等架构自动学习词之间的复杂关系,提供更强的表达能力和更高的准确性。

14. 零概率产生的原因-解决办法

反映了语言的规律性,即本来就不该出现
– 数据稀疏(Data Sparseness)
• 由于语言模型的训练文本T的规模及其分布存在着一定的局限 性和片面性,许多合理的语言搭配现象没有出现在T中。
• 仅靠增大语料库的规模,不能从根本上解决数据稀疏问题

数据平滑技术 : 通过调整概率分布,将一部分概率质量分配给训练集中未出现但可能在测试集中出现的词或词序列,从而避免零概率估计。
• 为了产生更准确的概率来调整最大似然估计的技术
• 基本思想:“劫富济贫”

15. 常见的统计语言模型容易出现零概率问题-请简述一种方法对其进行处理

可以使用数据平滑技术解决零概率问题

常见的统计语言模型,如n元语法模型,在处理未在训练数据中出现的词序列时容易遇到零概率问题。为了解决这个问题,可以采用数据平滑技术。
一种广泛应用的平滑方法是加法平滑(Additive Smoothing),也被称为拉普拉斯平滑(Laplace Smoothing),它通过对每个词或词序列的计数加一个小于1的常数(通常为1),然后重新计算概率分布来实现。
这样即使某些词或词序列在训练集中没有出现,它们在预测时也会被赋予一个较小但非零的概率值,提高了模型的鲁棒性和泛化能力。此外,还有其他多种平滑技术,如Good-Turing估计、Katz平滑等,它们在不同的应用场景下各有优势。

16. 常见的数据平滑技术

Laplace法则( 1814 )
– 绝对折扣和线性折扣( H.Ney,1994 )
– 扣留估计( Jekinekand Mercer, 1985 )
– 删除差值( Jelinek-Mercer , 1980 )

绝对折扣是一种基于频率减法的平滑方法。它的核心思想是:从每个非零频率中扣除一个固定值(通常为 0.5 或 1),然后将这些被扣除的概率质量重新分配给那些未出现的 n-gram。
线性折扣是对绝对折扣的一种扩展,它不是对所有 bigram 都使用相同的折扣值,而是根据 bigram 的频率动态调整折扣比例。
这是一种利用训练数据的一部分作为“验证集”,来估计和调整模型参数的平滑方法。具体来说,将一部分训练数据保留下来用于估计回退权重,而不是直接参与参数估计。

17. 语言模型的性能评价

在这里插入图片描述

第四章-马尔可夫模型

马尔可夫模型应用举例
在这里插入图片描述

第五章 字符编码与字频统计

18. 统计某中文语料中名词出现次数-请简述其处理过程。

1)分词
2)标注词性
3)统计名词

要统计某中文语料中名词的出现次数,其处理过程主要包括三个步骤:
首先对语料进行分词,将连续的中文文本切分为一个个有意义的词语;
然后进行词性标注,为每个词语标注其对应的词性(如名词、动词、形容词等),这一步通常基于已有的词性标注标准和统计模型(如隐马尔可夫模型或条件随机场)来实现;
最后,在所有标注好的词语中筛选出词性为“名词”的词汇,并对其进行频率统计,从而得出名词在语料中的出现次数。整个过程依赖于高质量的分词工具和词性标注工具,同时需要考虑未登录词识别和歧义消解等问题,以提高统计结果的准确性。

第六章-词法分析

19. 词法分析的任务

在这里插入图片描述

20. 简述词干提取与形态还原的区别

形态还原的目标是获得词元而词干提取的目标是获得词干
词干提取(Stemming)和形态还原(Lemmatization)都是自然语言处理中用于词语归一化的技术,但它们的处理方式和目标有所不同。
词干提取是一种较为简单和粗略的方法,它通过去除单词的前缀或后缀,将单词还原为其“词干”形式,而不一定保证结果是一个合法的词。例如,“running”可能被还原为“runn”。
而形态还原则更为精确,它基于词性标注和词汇知识,将单词还原为其规范的词典形式(即词元),如将“running”还原为“run”(动词)或“runner”还原为“runner”(名词)。形态还原通常依赖于词典或语料库支持,因此计算成本较高,但其结果更准确、可解释性更强,适用于需要高质量文本分析的任务。简而言之,词干提取注重速度与简化,形态还原注重准确与语言正确性

21. 英语断词过程中容易引起歧义的符号

句点(period)
– 撇号(apostrophe)
– 连字符(hyphen

第七章-汉语自动分词

22. 汉语自动分词的基本问题有哪些-请简述至少一种分词方法及其处理过程。

分词标准 切分歧义 未登录词
最大匹配法-

  • 匹配
    • 分词过程中用文本中的候选词去跟词表中的词匹配
    • 匹配成功,则认为候选词是词,予以切分。否则就认为不是词
  • 最大匹配
    • 尽可能地用最长的词来匹配句子中的汉字串
    • “社会”和“社会主义”
    • 切出来的词尽可能长,词数尽可能少

汉语自动分词的基本问题主要包括分词标准的确定、切分歧义的解决以及未登录词(即词表中未包含的新词或专有名词)的识别。
一种常见的分词方法是最大匹配法,该方法分为正向最大匹配和逆向最大匹配。
在处理过程中,首先利用文本中的候选词去与预先定义好的词表进行匹配;如果匹配成功,则将该候选词视为一个独立的词并予以切分;若不成功,则认为该序列不是词。最大匹配法则强调尽可能使用最长的词来匹配句子中的汉字串,以减少词的数量并确保切分的准确性。例如,在处理“社会主义”时,相比于单独切分为“社会”和“主义”,最大匹配法会优先选择切分成“社会主义”这一整体,因为这样可以使得切出来的词尽可能长,同时词数尽可能少。这种方法简单高效,但在面对歧义或未登录词时可能表现不佳。

23. 分词方法

最大匹配法
• 最少分词法(最短路径法)
• 最大概率法(最短加权路径法)
• 与词性标注相结合的分词方法
• 基于互现信息的分词方法
• 基于字分类的分词方法
• 基于实例的汉语分词方法

24. 汉语自动分词的主要评测指标

在这里插入图片描述

第八章-词性标注

25. 词性标注,句法分析的主要方法(NLP的基本方法)

基于规则的方法
• 基于统计的方法
• 统计与规则相结合的方法

  1. 基于规则的方法:

这种方法依赖语言学家手工编写的语法规则和词典资源,通过匹配上下文模式来确定词语的词性。例如,可以根据某个词前后的词性组合来判断当前词是否为动词或名词。这类方法在小规模、结构清晰的语言数据上效果较好,但开发成本高、维护困难,且难以适应新领域或未登录词。
2. 基于统计的方法:

统计方法利用大规模已标注的语料库进行模型训练,常见的模型包括隐马尔可夫模型(HMM)、最大熵模型(MEMM)、条件随机场(CRF)以及近年来广泛使用的深度学习模型(如BiLSTM-CRF、Transformer等)。这些模型能够从数据中自动学习词语与词性之间的概率关系,具有较强的泛化能力和适应性,尤其适用于开放域文本处理。
3. 统计与规则相结合的方法:

为了兼顾准确性和可解释性,一些系统采用统计与规则相结合的方式。例如,在统计模型的基础上引入语言规则作为约束或后处理手段,或者将规则用于处理统计模型无法覆盖的特殊情况(如专有名词识别、歧义消解等)。这种方法通常能提升整体标注性能,尤其是在处理低频词和未登录词时表现更优。

26. 画出一种经典的基于循环神经网络的词性标注架构图

在这里插入图片描述

第九章-句法结构

27. 短语结构

在这里插入图片描述

28. 歧义消解办法

– 不能指望仅仅通过某种精心设计的算法来消除所有的 句法歧义
– 要想从根本上解决歧义问题,必须给分析器提供语义 知识和词语搭配等方面的知识
– 另外,通过计算推导过程中所用到每条句法规则的概 率,也能在很大程度上减少句法歧义现象

第十章-语义分析

29. 语义分析的主要研究内容

词义消歧
语义角色标注(Semantic Role Labelling)
语义推理

30. 词义消歧vs.词性消歧

在这里插入图片描述

应用题

31. 两种概率估计

在这里插入图片描述


在这里插入图片描述

32. 架构图

在这里插入图片描述

相关文章:

  • web3区块链-ETH以太坊
  • 抗辐照芯片技术在商业卫星领域的应用与突破
  • MySQL技巧
  • Spring Cloud:服务监控与追踪的高级实践
  • 基于二分类方法和安全系数方法使用comsol with matlab蒙特卡洛模拟实现边坡失效概率计算——随机变量模型
  • 设计模式之适配器模式
  • 计算机组成原理与体系结构-实验三 存储器(Proteus 8.15)
  • 零基础学习RabbitMQ(4)--RabbitMQ快速入门
  • Rust 和C++工业机器人实践
  • 当SAM遇到声纳图像时之论文阅读
  • TreeMap源码分析 红黑树
  • mac系统快捷键及命令安装
  • LSNet: 基于侧向抑制的神经网络
  • 预测性 SRE 与自动化修复
  • fvcom 网格文件grd制作
  • yolov11安装,训练模型,tensorrtx加速,Qt预测图像
  • mac触摸板设置右键
  • python pyecharts 数据分析及可视化(2)
  • 八股文——JAVA基础:hashCode()方法的作用与意义以及与equals方法的联动
  • 通过阿里云部署n8n工作流自动备份GitHub