当前位置：首页 > news >正文

李宏毅NLP-14-NLP任务

news 2025/11/17 6:48:33

NLP任务

在这里插入图片描述
文本生成任务

输入：一段文本（如文档、句子）。
模型：生成式语言模型（如 GPT 系列、BERT+Decoder 架构）。
输出：一段新的文本。
典型场景：
- 机器翻译（如将中文文档转为英文文档）；
- 文本摘要（输入长文档，输出简短摘要）；
- 对话生成（输入用户问题，输出回答文本）。

文本分类任务

输入：一段文本（如新闻、评论）。
模型：分类式语言模型（如 BERT、TextCNN）。
输出：一个类别标签（如 “正面 / 负面情绪”“体育 / 财经领域”）。
典型场景：
- 情感分析（判断用户评论是 “积极” 还是 “消极”）；
- 垃圾邮件识别（区分 “正常邮件” 和 “垃圾邮件”）；
- 意图识别（在智能客服中判断用户意图是 “查询订单” 还是 “投诉”）。

这两种任务是 NLP 的基础方向：文本生成聚焦 “创造新文本”，文本分类聚焦 “给文本贴标签”，二者分别支撑了创作、分析类的众多实际应用。

分类任务

在这里插入图片描述
单类别分类

每个文本样本仅属于一个类别。
流程特征：模型输入一段文本后，输出唯一的类别标签

多类别分类

每个文本样本可以同时属于多个类别。
流程特征：模型输入一段文本后，输出多个类别标签

文本到文本

在这里插入图片描述
序列到序列（Seq2Seq）模型专门用于 “输入文字→输出文字” 的 NLP 任务（如机器翻译、文本摘要、对话生成等）。

输入：一段文本（如英文句子、长文档、用户问题）。
Model：Seq2Seq 模型，负责将输入文本理解后生成目标文本。
输出：一段新文本（如对应的中文翻译、摘要、回答）。
典型场景：
- 机器翻译（输入 “Hello”→输出 “你好”）；
- 文本摘要（输入长新闻→输出简短摘要）；
- 对话生成（输入 “今天天气怎么样？”→输出 “今天晴天，气温 25℃”）。

Seq2Seq 由 编码器（Encoder）、解码器（Decoder）、注意力机制（Attention）、复制机制（Copy Mechanism 组成：

编码器（Encoder）：
- 输入：w₁~w₅（输入文本的词序列，如 “机器学习很有趣”）。
- 作用：将输入序列编码为语义向量（隐藏状态），捕捉输入文本的整体含义。
- 常见实现：RNN、LSTM、Transformer 的 Encoder 层。
解码器（Decoder）：
- 输出：w₆~w₉（生成的目标文本词序列，如 “Machine learning is interesting”）。
- 作用：基于编码器的语义向量，逐词生成输出文本。
- 常见实现：RNN、LSTM、Transformer 的 Decoder 层。
注意力机制（Attention）：
- 作用：让解码器在生成每个词时，动态关注编码器中 “最相关的输入部分”（比如翻译 “学习” 时，重点关注输入的 “学习” 对应的编码）。
- 价值：解决传统 Seq2Seq “长文本信息丢失” 的问题，大幅提升生成精度（如长句翻译、复杂摘要）。
复制机制（Copy Mechanism）：
- 作用：允许解码器直接复制输入中的词（如文本摘要中保留 “人工智能” 这类专业术语）。
- 适用场景：需要保留输入中关键信息的任务（如问答系统中复制问题里的实体 “北京” 来生成 “北京的天气是…”）。

Seq2Seq 是 “输入文字→输出文字” 类 NLP 任务的基石架构，后续的 Transformer、BERT 等大模型，本质上也是在这个框架上的升级（如用自注意力替代 RNN，增强长距离依赖建模能力）。它的灵活性使其能适配翻译、摘要、对话、语法纠错等数十种文本生成任务，是 NLP 中 “文本到文本” 场景的核心技术。

在这里插入图片描述
NLP 中多个输入文本处理的两种核心策略，适用于文本匹配、多文档理解、自然语言推理等场景

简单拼接（Simply concatenate）

处理逻辑：将多个文本序列（如w₁w₂w₃和w₄w₅）通过分隔符（如<SEP>）拼接成一个长序列，再输入模型统一处理。
典型场景：
- 文本匹配（如判断 “句子 A” 和 “句子 B” 是否语义相关，输入为句子A <SEP> 句子B）；
- 多文档摘要的初步整合（将多篇文档拼接后输入模型）。
优点：实现简单，适配现有单序列模型（如 BERT 的句子对输入就是这种逻辑，用[SEP]分隔）。
缺点：模型难以显式区分不同序列的边界，长序列时易出现信息稀释（比如第二篇文档的关键信息被第一篇淹没）。

序列间注意力整合（Attention between sequences）

处理逻辑：对每个文本序列单独编码（两个Model分别处理w₁w₂w₃和w₄w₅），再通过序列间注意力（Attention） 深度整合它们的语义交互，最终由Integrate模块输出结果。
典型场景：
- 自然语言推理（判断前提句和假设句的逻辑关系，如蕴含/矛盾）；
- 多轮对话理解（整合多轮用户输入和历史回复的语义）；
- 多文档问答（从多篇文档中交叉检索信息回答问题）。
核心优势：通过显式的序列间注意力，模型能精准捕捉不同文本间的语义关联（比如在推理任务中，明确前提中的鸟会飞和假设中的企鹅会飞的矛盾关系），避免信息稀释，是当前处理多序列任务的主流优化方向。

策略	适用场景	典型模型 / 任务示例
简单拼接	序列间交互弱、对效率要求高	BERT 的句子对分类（如 QQP 任务）
序列间注意力整合	序列间交互强、需深度语义关联	自然语言推理模型（如 DeBERTa）	多轮对话系统

简单拼接是入门级方案，而序列间注意力整合通过显式建模多序列的交互，能更好地处理复杂的多文本理解任务，是工业级 NLP 系统中处理多输入文本的核心技术思路。

任务汇总

在这里插入图片描述
NLP 任务的二维分类体系，以 输入序列数量（列：单序列 / 多序列）和输出类型（行） 为维度，系统梳理了主流 NLP 任务的归属：

列：输入序列数量

One Sequence：模型仅输入一个文本序列（如单句、单篇文档）。
Multiple Sequences：模型输入多个文本序列（如问题 + 文档，前提 + 假设，多轮对话历史等）。

行：输出类型

1. One Class（输出一个类别）
- One Sequence：输入单序列，输出一个类别标签。
  - 情感分类（判断文本正面 / 负面）、立场检测（判断对话题的支持 / 反对）、真实性预测（判断文本真实 / 虚假）、意图分类（如智能客服判断用户查询订单 / 投诉）、对话策略（对话系统中决策下一步动作）。
- Multiple Sequences：输入多序列，输出一个类别 / 关系。
  - NLI（自然语言推理，输入前提 + 假设，判断蕴含 / 矛盾 / 中立）、搜索引擎（输入查询 + 多个文档，判断文档与查询的相关性）、关系抽取（输入两个实体的上下文，抽取属于 / 关联于等关系）。
1. Class for each Token（每个词元输出一个类别，即序列标注）
- One Sequence：对输入序列的每个词元（Token）单独打标签。
  - POS tagging（词性标注，如给苹果标名词）、Word segmentation（分词，如中文分词，给我爱吃苹果标我 / 爱 / 吃 / 苹果的边界）、Extractive Summarization（抽取式摘要，给每个句子标是否属于摘要句）、Slotting Filling（槽填充，对话系统中给明天飞北京的明天标时间槽、北京标地点槽）、NER（命名实体识别，给马云创立阿里的马云标人名、阿里标机构名）。
- Multiple Sequences：该类任务通常基于单序列，多序列场景下较少见，故此处空白。
1. Copy from Input（输出是从输入中直接复制内容）
- One Sequence：无典型任务。
- Multiple Sequences：输入多序列，输出从其中一个序列复制片段。
  - Extractive QA（抽取式问答，如输入问题 + 文档，从文档中复制答案片段，如中国首都的答案北京直接来自文档）。
4. General Sequence（生成任意新序列，即生成式任务）
- One Sequence：输入单序列，生成全新序列。
  - 抽象式摘要（输入长文档，生成浓缩且改写的摘要）、翻译（输入英文，生成中文）、语法纠错（输入我昨天吃了苹果，生成我昨天吃了苹果。）、NLG（自然语言生成，如输入角色：小明，场景：学校，生成小明在学校里认真听课。）。
- Multiple Sequences：输入多序列，生成新序列。
  - General QA（通用问答，如结合多文档 + 问题生成答案）、Chatbot（聊天机器人，多轮对话中结合历史回复 + 当前问题生成回答）、State Tracker（状态追踪，对话中整合多轮输入生成当前状态描述）、Task Oriented Dialogue（任务导向对话，如订机票场景中，多轮交互后生成订单确认文本）。

5. Other（其他特殊任务）

One Sequence：不属于以上四类的任务。
- Parsing（句法分析，分析句子的主谓宾结构）、Coreference Resolution（共指消解，判断他马云是否指向同一实体）。

POS Tagging 词性标注

在这里插入图片描述
词性标注是自然语言处理（NLP）的基础序列标注任务，目标是为句子中的每个单词标注其语法类别（如动词、形容词、名词、代词等）。例如图中句子 “John saw the saw.”：

John 被标注为 PN（Personal Pronoun，人称代词）；
第一个 saw 被标注为 V（Verb，动词，意为 “看见”）；
the 被标注为 D（Determiner，限定词，如冠词）；
第二个saw被标注为N（Noun，名词，意为 “锯子”）。

这一案例也体现了词性标注对多义词歧义消解的作用（同一个词saw因语法角色不同被标注为动词和名词）。

输入输出：输入是词序列（如 “John saw the saw”），输出是每个词对应的词性类别（即 “每个 token 的 class”），属于典型的序列标注任务。
模型（Model）：负责学习词→词性的映射关系，经典模型包括隐马尔可夫模型（HMM）、条件随机场（CRF），现代方案多基于 Transformer（如 BERT + 线性层）。

简言之，词性标注是 NLP理解语言语法结构” 的第一步，通过给每个词赋予语法身份，为后续复杂的语义理解、任务决策提供关键支撑。
但是如果你的下游任务模型足够强，可能已经包含了词性标注的能力，不需要做词性标注了。

Word Segmentation 分词

在这里插入图片描述
与英文不同，中文句子是连续的字符序列，因此需先通过分词将字符切分为有意义的词语（如 “台灣大學”“簡稱”“台大”），才能支撑后续的语义理解、句法分析等 NLP 任务。

输入：连续的中文字符序列（如 “台灣大學簡稱台大”）。
模型（Model）：对每个字符进行序列标注，判断其是否为 “分词边界”
- N：表示该字符不是分词结束位置，需与后续字符合并；
- Y：表示该字符是分词结束位置，在此处断开。
下游任务（Down-stream Task）：基于分词结果，开展更复杂的 NLP 任务（如词性标注、命名实体识别、文本分类等）。

中文分词是序列标注任务的典型应用，模型需学习 “字符→分词边界” 的映射关系。经典方法包括基于词典的规则匹配（如结巴分词）、基于统计的隐马尔可夫模型，现代方案多采用 Transformer（如 BERT）+ 条件随机场（CRF）的架构，以提升歧义场景的分词精度（如 “乒乓球 / 拍卖 / 卖得 / 好” vs “乒乓 / 球拍 / 拍卖 / 得好”）。

Parsing 句法分析

在这里插入图片描述
句法分析任务的两种核心类型：短语结构分析（Constituency Parsing和依存分析（Dependency Parsing），它们是 NLP 中理解句子语法结构的关键任务。

短语结构分析（Constituency Parsing）

核心逻辑：将句子分解为层次化的短语结构树，通过 “父节点 - 子节点” 的层级关系，展示句子的短语组成（如 “句子→名词短语 + 动词短语”）。
示例解析：以句子“John hit the ball.”为例，结构树中：
- S（Sentence，句子）是根节点；
- S 分为 N（Noun Phrase，名词短语，即 “John”）和 VP（Verb Phrase，动词短语）；
- VP 又分为 V（Verb，动词 “hit”）和 NP（Noun Phrase，名词短语 “the ball”）；
- NP 再分为 D（Determiner，限定词 “the”）和 N（Noun，名词 “ball”）。
价值：清晰呈现句子的短语层级结构，为句法规则、语义角色分析等任务提供基础。

依存分析（Dependency Parsing）

核心逻辑：聚焦词与词之间的直接语义依赖关系，用有向边表示支配词 - 从属词的关系（如动词支配主语、宾语），不强调层次结构，更关注语义关联。
示例解析：同样以“John hit the ball.”为例：
- 动词 hit 是核心支配词；
- John 是 hit 的主语（名词依赖于动词）；
- ball 是 hit 的宾语（名词依赖于动词）；
- the 是 ball 的限定词（限定词依赖于名词）。
价值：直接体现词的语义依存关系，更贴合 “谁对谁做了什么” 的语义理解，是机器翻译、问答系统等任务的核心支撑。

两种 Parsing 的结果均可用于下游 NLP 任务（如语义角色标注、情感分析、机器翻译），帮助模型明确句子的语法结构和语义逻辑，是实现深度语言理解的关键环节。

Coreference Resolution 指代消解

在这里插入图片描述
指代消解是自然语言处理（NLP）的关键任务，目标是确定文本中哪些表达指向同一个现实世界实体。例如，文本中 “Paul Allen”“He”“Paul” 可能指代同一人，需将它们关联起来。

文本：

“Paul Allen was born on January 21, 1953. He attended Lakeside School, where he befriended Bill Gates. Paul and Bill used a teletype terminal at their high school, Lakeside, to develop their programming skills…”

指代关系拆解：

“He”（第二句）→ 指代 Paul Allen；
第二个 “he”（第二句）→ 指代 Paul Allen；
“Paul”（第三句）→ 指代 Paul Allen；
“their”（第三句）→ 指代 Paul 和 Bill；
“Lakeside”（第三句）→ 指代 Lakeside School（第二句的名词短语）。

指代消解是文本语义理解的基石，直接影响多个下游任务的性能：

问答系统：用户问 “他在哪里上学？”，需通过指代消解确定 “他” 指 Paul Allen，才能回答 “Lakeside School”；
信息抽取：抽取 “Paul Allen 的教育经历” 时，需将 “Lakeside School” 与 “他” 的上学行为关联；
文本摘要：生成摘要时，需明确代词指代，避免语义模糊（如将 “He attended…” 简化为 “Paul Allen attended…”）；
机器翻译：需根据指代关系调整译文的代词 / 名词使用，保证译文逻辑连贯。
简言之，指代消解通过理清实体的指代关系，让机器真正理解文本中谁做了什么，是实现深度语言理解的关键环节。

Summarization 摘要

在这里插入图片描述
抽取式摘要是文本摘要的一种类型，核心是从原始文档中直接抽取关键句子 / 短语，拼接成摘要（不进行内容改写）。

输入（Input）：原始文档（document），由多个句子（如Sentence 1、Sentence 2等）组成。
模型决策：算法识别文档中最具信息量、最能代表主旨的句子（如图中的Sentence 2和Sentence 4）。
输出（Output）：将抽取的关键句直接拼接，形成summary（摘要）。

属于序列标注任务，对文档中的每个句子（或词元）判断 “是否属于摘要”，最终将被标注为属于摘要的句子拼接输出。

优点：忠实于原文，避免生成错误；
缺点：可能存在句子拼接不流畅的问题；
应用：常作为新闻摘要、学术论文摘要的基础方案，也可与生成式摘要结合，提升摘要的流畅性与信息量。

简言之，抽取式摘要通过直接抽取原文关键句的方式，在保证内容真实性的前提下，实现文档的高效浓缩。

在这里插入图片描述
抽象式摘要是输入长文本（sequence）、输出短摘要（sequence） 的生成式任务，模型需理解原文语义并生成全新的浓缩文本。该架构鼓励从输入中直接复制关键信息，以平衡生成灵活性和信息准确性。

指针网络Pointer Network是实现精准复制的核心技术：

它让模型在生成摘要时，能**指向输入文本中的特定词 / 短语 **，直接复制到输出中（如专业术语、核心实体、关键动词等）。
解决痛点：避免抽象式摘要常见的生成错误（如编造不存在的信息、术语拼写错误），同时保留生成式摘要重组语义、提升流畅性的优势。
输入：长文档（document）；
模型：集成指针网络的 Seq2Seq 模型（如 BART、T5 的改进版），同时具备理解原文→生成新文本→复制关键信息的能力；
输出：短摘要（summary），其中关键实体、术语直接从原文复制，其余部分由模型生成，兼顾准确性和流畅性。

Machine Translation 机器翻译

在这里插入图片描述

机器翻译（Machine Translation 的不同技术形态：

文本到文本的机器翻译
- 输入：英文文本 “How are you?”
- 模型：传统机器翻译模型（如 Transformer 架构）
- 输出：中文文本 “你好嗎？”
- 场景：这是最常见的机器翻译形式，如谷歌翻译、百度翻译的核心逻辑 —— 直接对文本进行跨语言转换。
语音到文本的机器翻译
- 输入：英文语音（波形图）+ 对应文本 “How are you?”
- 模型：融合 “语音识别（ASR）+ 机器翻译” 的多模块系统
- 输出：中文文本 “你好嗎？”
- 场景：适用于 “语音输入、文本输出” 的翻译需求，比如实时语音翻译软件（先把语音转成文本，再翻译文本）。
语音到语音的机器翻译
- 输入：英文语音（波形图）+ 对应文本 “How are you?”
- 模型：融合语音识别（ASR）+ 机器翻译 + 语音合成（TTS）的端到端系统
- 输出：中文语音（波形图）+ 对应文本 “你好嗎？”
- 场景：适用于语音输入、语音输出的实时翻译需求，比如同声传译 AI 设备（直接把语音翻译成目标语言的语音，同时输出文本辅助理解）。

传统机器翻译依赖大量 “平行语料”（如英文 - 中文的对齐句子对），但小语种或小众领域的平行语料稀缺。无监督机器翻译试图不依赖平行语料，通过自监督学习、跨语言语义对齐等方法，让模型自主学习翻译规则，解决语料不足的痛点。

Grammer Error Correction 语法纠错

在这里插入图片描述语法纠错（Grammar Error Correction, GEC）是 **“输入错误序列→输出正确序列” 的生成式任务 **：

输入：存在语法错误的文本（如 I are good.）；
模型：通过深度学习模型（如 Seq2Seq 架构、基于 Transformer 的模型）理解错误并生成修正后的文本；
输出：语法正确的文本（如I am good.）。

该任务属于 序列到序列（Sequence-to-Sequence） 类型，且鼓励复制正确部分（即模型优先保留原文中正确的词，仅修正错误部分）。

表格通过两个例子详细展示了语法错误的 “类型 - 修正方式”：

Example 1

错误输入（x）：“Bolt can have run race”
正确输出（y）：“Bolt could have run the race”
错误差异（diff）与修正类型（e）：
- (I,can,could) → 替换（R, Replace）：将 “can” 替换为 “could”
- (I,run,the)→添加（A, Add）：在 “run” 后添加 “the”；
- 其余 “C” 表示正确（Correct），无需修改。

语法纠错是 **“错误识别 + 错误修正” 的复合任务 **，模型需同时判断哪里错了和怎么改。主流技术基于 Seq2Seq 架构（如 BART、T5 的微调版），并通过复制机制保留原文正确部分，仅对错误词进行替换、添加或删除，以保证修正的准确性和流畅性。核心挑战是平衡错误识别的精度和修正后的流畅性。

Sentiment Classification 情感识别

在这里插入图片描述
情感分类的目标是判断一段文本的情感倾向（如正面、负面、中性）。 “Input: sequence；Output: class”，明确输入是文本序列，输出是情感类别。

属于文本分类任务，模型需学习文本→情感类别的映射关系。主流方案基于深度学习（如 BERT、TextCNN），核心挑战是处理语义转折、情感极性词的权重判断（如 “虽然… 但…” 结构中，后段往往是情感重点）。

情感分类是 NLP 中分析文本喜怒哀乐的基础任务，广泛应用于舆情分析、产品评论挖掘等场景，其核心是让模型理解文本的情感倾向并输出对应类别。

Stance Detection 立场检测

在这里插入图片描述
立场检测是自然语言处理中的分类任务，目标是判断一段回复文本对源文本的立场倾向。其技术形态为：

输入：两个序列（源文本 + 回复文本）；
输出：一个类别（如支持、否定、询问、中立等）。

主流系统采用 SDQC 标签集 对立场分类：

Support（支持）：回复赞同源文本的观点；
Denying（否定）：回复反对 / 否定源文本的观点；
Querying（询问）：回复对源文本的观点提出疑问；
Commenting（评论 / 中立）：回复仅为客观评论，无明确立场倾向。

立场检测常用于真实性预测（Veracity Prediction）—— 通过分析不同立场的回复分布（如大量否定立场的回复），可辅助判断源信息的可信度（如谣言识别、新闻真实性分析）。
在这里插入图片描述

真实性预测的目标是判断信息的真假属性（如新闻、传闻是否真实）。输入是多个文本序列，输出是真实（True）或虚假（False）的类别。

模型（Model）的输入包含多个序列：

Post：待判断的源信息（如社交平台帖子、新闻稿）；
Replies：用户对该信息的回复（可辅助判断立场、可信度，如大量质疑的回复可能暗示信息虚假）；
Wikipedia：外部知识（如百科条目、权威数据库，用于交叉验证信息真实性）。

模型通过整合这些多源信息，最终输出True/False 的类别判断。

该任务广泛用于谣言检测、假新闻识别等场景，是社交媒体舆情治理、信息可信度评估的关键技术，核心是通过多维度文本信息的融合，提升真假判断的准确性。
简言之，立场检测聚焦回复对源文本的态度判断，是社交舆情分析、信息真实性验证等场景的关键技术，核心是通过双序列输入→单类别输出的分类逻辑，捕捉文本间的立场关联。

Natural Language Inference(NLI) 自然语言推理

在这里插入图片描述

自然语言推理的目标是判断前提（Premise）和假设（Hypothesis）之间的逻辑关系，输出三类标签之一：

矛盾（Contradiction）：假设与前提逻辑冲突；
蕴含（Entailment）：假设可由前提必然推导得出；
中立（Neutral）：假设与前提无明确逻辑关联（既不矛盾也不蕴含）。
前提（Premise）：一个人骑马跳过一架故障的飞机；
假设1：一个人在餐厅→与前提场景完全冲突，属于矛盾（Contradiction）；
假设2：一个人在户外骑马→前提场景必然包含户外骑马的信息，属于蕴含（Entailment）；
假设3：一个人在训练马参加比赛→前提未提及训练或比赛，属于中立（Neutral）。

NLI是测试模型逻辑推理能力的关键任务，输入为两个序列（前提+假设），输出为一个类别（矛盾/蕴含/中立）。主流模型基于Transformer架构（如BERT、RoBERTa），通过学习文本间的语义关联，实现逻辑关系的分类。

Search Engine 搜索引擎

在这里插入图片描述
搜索引擎中的语义相关性判断任务双序列输入→类别输出：

输入：两个文本序列——用户查询（如美容师工作中经常站立吗？）+搜索结果文档；
输出：一个类别——relevant（相关）或不相关，用于判断文档是否匹配查询的语义需求。

对比google使用bert模型优化前后的搜索结果：

优化前（BEFORE）：返回的文档仅提及美容师的职业类型、薪资影响，与是否常站立的查询语义关联弱；
优化后（AFTER）：返回的文档明确涉及Physical Demands（身体需求），与standalot的查询高度相关，被模型判定为relevant。

模型需学习查询文本→文档文本的语义关联程度，输出相关/不相关的分类结果。这是搜索引擎精准召回的核心环节，直接影响搜索结果的质量。

Question Answering 问答系统

在这里插入图片描述
智能问答系统 “理解问题→检索信息→生成答案→评分排序” 的技术链条

早期通用问答流程

**Question Processing（问题处理）：**对用户问题进行解析，包括Query Formulation（生成查询语句）和Answer Type Detection（判断答案类型，如 “人名”“时间” 等）。
Indexing + Document and Passage Retrieval（索引与文档段落检索）：
- 先对海量文档建立索引；
- 再通过Document Retrieval筛选出与问题相关的文档（Relevant Docs）；
- 最后通过Passage Retrieval从相关文档中提取更细粒度的段落（passages）。
Answer Extraction（答案提取）：从检索到的段落中提取最终答案。

IBM Watson 的问答流程被拆解为 4 个核心阶段，体现了其多源信息融合 + 置信度排序的技术特色：

Question Processing（问题处理）：
- 对问题进行多维度解析，包括Focus Detection（聚焦问题核心）、Lexical Answer Type Detection（词汇级答案类型判断）、Question Classification（问题分类）、Parsing（句法分析）、Named Entity Tagging（命名实体识别）、Relation Extraction（关系抽取）、Coreference（指代消解）。
Candidate Answer Generation（候选答案生成）：
- 从文本资源（From Text Resources）中，通过Document and Passage Retrieval和Answer Extraction生成候选答案；
- 从结构化数据（From Structured Data）中，通过Relation Retrieval（如从 DBpedia、Freebase 等知识库中检索关系）生成候选答案。
Candidate Answer Scoring（候选答案评分）：
- 通过Evidence Retrieval and scoring，从多源证据（如文本、DBpedia、Facebook 等）中为每个候选答案打分，同时计算置信度（Confidence）。
Confidence Merging and Ranking（置信度融合与排序）：
- Merge Equivalent Answers：合并语义等价的答案；
- Logistic Regression Answer Ranker：通过逻辑回归对答案进行最终排序；
- 输出Answer and Confidence：同时给出答案和其置信度。

在这里插入图片描述
问答系统（Question Answering, QA）

输入：多个序列（question用户问题 + Knowledge source知识源）；
输出：一个序列（answer答案）；
核心能力：阅读理解（Reading comprehension） —— 模型需像人类一样理解问题和文档，从中提取答案。

知识源获取：

从海量 非结构化文档（unstructured documents） 中，通过search engine（搜索引擎）筛选相关内容，过程中会Filter out irrelevant documents（过滤无关文档），最终形成Knowledge source（与问题相关的知识源）。
问答推理：

将question（用户问题）和Knowledge source（筛选后的知识源）输入QA模型，模型基于阅读理解能力，从知识源中提取与问题匹配的答案（answer）。

该流程体现了问答系统 检索 + 理解 + 生成 的核心逻辑：先通过搜索引擎从非结构化文档中检索相关信息，再由 QA 模型理解问题 - 知识源的语义关联，最终生成精准答案。这是 NLP 在信息获取场景的典型应用，广泛支撑智能助手、知识库问答等产品。

在这里插入图片描述

抽取式问答（Extractive QA） 的核心逻辑，属于问答系统中从文档直接抽取答案的典型任务

输入：多个序列（question用户问题 + document参考文档）；
输出：一个序列（answer答案），且答案直接从输入文档中复制（标注 “copy from input”）；
技术本质：序列标注任务—— 模型需定位答案在文档中的起始位置（s）和结束位置（e），抽取连续的词作为答案。

以气象学文本为例：

问题 “What causes precipitation to fall?” → 文档中对应 “that falls under gravity”，模型定位到gravity的位置（s=17, e=17），直接抽取该词作为答案；
问题 “What is another main form of precipitation besides drizzle, rain, snow, sleet and hail?” → 文档中提到 “graupel”，模型抽取该词作为答案；
问题 “Where do water droplets collide with ice crystals to form precipitation?” → 文档中对应 “within a cloud”，模型抽取该短语作为答案。

抽取式问答的优势是答案保真度高（直接来自文档，避免生成错误），是阅读理解类问答任务的基础方案（如 SQuAD 数据集的核心任务就是抽取式问答）。技术上通过定位答案边界（s 和 e）实现，属于 NLP 中文本匹配 + 序列标注的复合任务。

Dialogue 对话

chatting：尬聊

聊天机器人（对话系统） 的核心交互逻辑，属于自然语言处理中多序列输入→序列输出的对话生成任务：

交互场景：机器（Machine）先发起对话Hi 😊，人类（Human）回复Hello 😊，机器接着生成下一轮回复 how’s your day?，模拟自然的人机聊天流程。
技术流程：模型的输入是历史对话序列（机器的 Hi 😊+ 人类的Hello 😊），输出是下一轮回复序列（how’s your day?）。
任务本质：属于上下文感知的序列生成任务，模型需理解对话的历史语境，生成连贯、符合人类交流习惯的回复，实现人机之间的自然语言交互（如闲聊、任务导向对话等场景）。

在这里插入图片描述
高阶聊天机器人（对话系统）的设计逻辑，核心是在基础交互之上，融入人格、共情、知识三大维度，让对话更具人性化和实用性：

Personality（人格）：对话系统需具备独特性格（如活泼、沉稳等），使回复风格统一且有辨识度。
Empathy（共情）：系统要理解并回应人类情绪（如用户表达失落时，能给出关怀性回复）。
Knowledge（知识）：系统需具备领域知识或常识，确保回复准确、有信息量（如回答科普问题、生活常识等）。

模型（Model）接收历史对话序列（机器的 “Hi 😊” + 人类的 “Hello 😊”），并融合人格、共情、知识三大要素，最终生成自然连贯的下一轮回复（如 “how’s your day?”）。

Task-oriented 任务导向型对话：核心是围绕完成特定任务展开的多轮交互

对话通过多轮交互收集关键信息（槽位），逐步推进任务：

意图识别：用户（第 2 轮）明确 “我要订房”，Agent 识别任务意图后，开始收集订房所需的核心信息；
槽位填充：Agent 依次询问并收集：
- 用户姓名（第 3-4 轮）；
- 入住时间（第 5-6 轮）；
- 住宿晚数（第 7-8 轮）；
- 订房人数（第 9-10 轮）；
- 房型（第 11-12 轮）；
信息确认：Agent 整理所有信息（入住 / 退房时间、房型等），请用户最终确认（第 13-14 轮），完成订房任务。

目标明确：以完成特定任务（如订房、订票、查询）为核心，交互围绕任务需求展开；
槽位驱动：需收集任务相关的关键信息（如姓名、时间、人数、房型等槽位），信息收集完整后任务才能完成；
多轮引导：通过系统的主动询问，引导用户补充信息，形成提问 - 回答的交互闭环。
对话系统的记忆 - 决策逻辑：状态追踪器记录对话进度（已收集 / 未收集的信息），为策略模块提供依据，确保系统高效完成订房等特定任务。
这类对话系统广泛应用于智能客服、语音助手等场景（如订机票、查快递、酒店预订），核心价值是通过高效的多轮交互，精准完成用户的任务需求。

Natural Language Understanding NLU

在这里插入图片描述
NLU 是对话系统（尤其是任务导向型对话）的理解中枢：通过意图分类明确用户目的，通过槽填充提取关键信息，为后续的对话策略决策任务执行提供精准的语义理解基础。

任务导向型对话系统的完整技术架构，清晰呈现了从用户语音输入到系统语音输出的全流程模块协作，以下是分层解析：

语音输入与识别

模块：ASR（Automatic Speech Recognition，自动语音识别）
作用：将用户的语音输入（波形图）转换为文本形式的 User Input，实现 “让系统听懂语音” 的第一步。

2. 自然语言理解与状态管理（NLU + State Tracker）

NLU（Natural Language Understanding，自然语言理解：解析 User Input 的意图（用户想做什么）和槽位（关键信息，如订房的时间、人数等），为后续决策提供语义基础。
State Tracker（状态追踪器）：结合Dialogue History（对话历史）和 NLU 的输出，实时跟踪对话的状态

（已收集信息、缺失信息、任务进度等）。

3. 对话策略与回复生成（Policy + NLG）

Policy（策略模块）：根据当前state（状态）决定下一步行动（如继续询问缺失信息、确认任务完成等），生成对话策略。
NLG（Natural Language Generation，自然语言生成）：依据 Policy 的决策，生成文本形式的 System Output（系统回复）。

4. 语音输出（TTS）

模块：TTS（Text-to-Speech，语音合成）
作用：将 System Output 的文本转换为语音输出（波形图），让用户 “听到” 系统的回复，完成交互闭环。

这是一个端到端（End-to-end）的任务导向对话流程：用户语音 → ASR 转文字 → NLU 理解 → 状态追踪 → 策略决策 → NLG 生成回复 → TTS 转语音 → 用户接收。输入是多个序列（语音、对话历史等），输出是一个序列（系统的语音回复）。该架构广泛应用于智能客服、语音助手等场景（如订酒店、查航班），核心是通过多模块协作，高效完成用户的任务需求。

Knowledge Graph

在这里插入图片描述

知识图谱（Knowledge Graph）的构建流程，以《哈利・波特》的角色关系为例，拆解为两个核心步骤，以下是详细解析：

Step 1: Extract Entity（提取实体）

从网络等信息源中识别出知识图谱的节点（实体）。图中示例的实体包括：Ron Weasley（罗恩・韦斯莱）、Hogwarts（霍格沃茨魔法学校）、Hermione Granger（赫敏・格兰杰）。
Step 2: Extract Relation（提取关系）

识别实体之间的边（语义关联）。图中示例的关系包括：Is a student of（是…… 的学生）、is husband of/is wife of（婚姻关系）。

实际知识图谱构建更复杂。其核心价值是将零散的信息组织成实体 - 关系 - 实体的结构化网络，让机器能理解并推理现实世界的语义关联，广泛应用于智能问答、搜索引擎、知识推理等领域。

Name Entity Recognition NER 命名实体识别

在这里插入图片描述
命名实体识别是自然语言处理中的序列标注任务：

输入：文本序列（如句子 “Harry Potter is a student of Hogwarts and lived on Privet Drive.”）；
输出：每个词（token）的实体类别（如人物、组织、地点等）。

以《哈利・波特》的句子为例：

Harry Potter（红色标注）→ 属于people（人物） 类别；
Hogwarts（绿色标注）→ 属于organizations（组织） 类别；
Privet Drive（紫色标注）→ 属于places（地点） 类别。

NER 的核心是识别文本中具有特定意义的实体，与词性标注（POS tagging），槽填充的技术形态类似（都是对词进行类别标注）。它是知识图谱构建、信息抽取、智能问答等任务的基础技术（只有先识别出实体，才能进一步分析实体间的关系）。

Relation Extraction 关系抽取

在这里插入图片描述
关系抽取的目标是判断两个实体之间的语义关系，输出具体关系类型或无关系（none）。

以《哈利・波特》的句子为例：

上图：输入实体 Harry Potter（红色）和 Hogwarts（绿色），模型输出关系 “is a student of”（表示 “是…… 的学生”）；
下图：输入实体 Hogwarts（绿色）和 Privet Drive（紫色），模型输出 “none”（表示两者无明确语义关系）。

关系抽取是**实体对→关系类别的分类问题 **：给定两个实体，模型需判断它们之间是否存在预定义的语义关系（如师生，居住，所属等），是知识图谱构建、信息抽取的核心技术之一（只有明确实体间的关系，才能构建结构化的知识网络）。

GLUE

在这里插入图片描述
通用语言理解评估基准（General Language Understanding Evaluation, GLUE）的构成，它是自然语言处理（NLP）领域用于衡量模型通用语言理解能力的重要基准集合，包含多个子任务数据集：

CoLA（Corpus of Linguistic Acceptability）：判断句子的语法可接受性（单句分类任务）。
SST-2（Stanford Sentiment Treebank）：情感分类任务，判断句子的情感倾向（正面 / 负面）。
MRPC（Microsoft Research Paraphrase Corpus）：判断两个句子是否为释义（语义等价）。
QQP（Quora Question Pairs）：判断 Quora 平台上的两个问题是否语义等价。
STS-B（Semantic Textual Similarity Benchmark）：评估两个句子的语义相似度（回归任务）。
MNLI（Multi-Genre Natural Language Inference）：多类型自然语言推理，判断句子对的逻辑关系（蕴含、矛盾、中立），覆盖多种文本风格。
QNLI（Question-answering NLI）：基于问答场景的自然语言推理，判断问题与段落是否存在蕴含关系。
RTE（Recognizing Textual Entailment）：识别文本蕴含关系，是 MNLI 的子集，任务更具挑战性。
WNLI（Winograd NLI）：解决代词指代等歧义的自然语言推理，属于常识推理任务。

GLUE 还有中文版本（CLUE），用于评估中文 NLP 模型的通用语言理解能力，是国内 NLP 领域的重要基准。

在这里插入图片描述
Super GLUE基准的核心任务与示例，它是自然语言处理（NLP）领域用于评估模型复杂语言理解与推理能力的进阶基准，以下是详细解析：

BoolQ：布尔问答任务，给定一段文本（Passage）和问题，回答 “是 / 否”。

示例中，文本介绍 Barq’s 是美国软饮品牌，由可口可乐公司 bottling，问题 “Barq’s root beer 是百事产品吗？” 答案为No。
CB：文本蕴含任务，判断 “假设（Hypothesis）” 与 “文本（Text）” 的逻辑关系（蕴含、矛盾、未知）。

示例中，文本讨论雇主支持的儿童保育中心，假设 “他们在引领趋势”，其蕴含关系为Unknown。
COPA：因果推理任务，给定 “前提（Premise）”，从两个选项中选正确的 “原因 / 结果”。

示例中，前提是 “身体在草地上投下阴影”，原因是 “太阳升起（Alternative 1）”，因此Correct Alternative 为 1。
MultiRC：多选项阅读理解任务，给定段落和问题，判断多个候选答案的真假。

示例中，段落讲述 Susan 办派对，所有朋友最终都到场，问题 “她生病的朋友是否康复？” 因朋友到场，说明康复，故 “ Yes, she was at Susan’s party (T)” 为正确判断。

Super GLUE 是 GLUE 的升级版，聚焦更复杂的语言推理场景（如因果、多轮常识推理、布尔问答等），其网址为https://super.gluebenchmark.com/，是衡量 NLP 模型 “深度理解与推理能力” 的重要参考标准。

在这里插入图片描述
DecaNLP（由 Salesforce 提出，网址https://decanlp.com/）的核心概念：它是一个多任务自然语言处理基准，类比田径十项全能（Decathlon），要求同一个模型解决 10 类不同的 NLP 任务，以下是详细解析：

DecaNLP 的设计理念是用一个模型应对多类 NLP 任务，类似于QA问题

问答（Question Answering）：

问题：“南加州对加州和美国的主要重要性是什么？”

上下文：“Southern California is a major economic center for the state of California and the US…”

答案：major economic center（直接从上下文中抽取）。
机器翻译（Machine Translation）：

英文原文：“Most of the planet is ocean water.”

德语翻译：Der Großteil der Erde ist Meerwasser。
文本摘要（Text Summarization）：

原文：“Harry Potter star Daniel Radcliffe gains access to a reported £320 million fortune…”

摘要：Harry Potter star Daniel Radcliffe gets £320M fortune…（提炼核心信息，简化表达）。
自然语言推理（Natural Language Inference）：

前提（Premise）：“Conceptually cream skimming has two basic dimensions – product and geography.”

假设（Hypothesis）：“Product and geography are what make cream skimming work.”

推理结果：Entailment（蕴含，即假设可由前提推导得出）。
情感分析（Sentiment Analysis）：

句子：“A stirring, funny and finally transporting re-imagining of Beauty and the Beast and 1930s horror film.”

情感判断：positive（正面）。