【学习笔记】NLP 基础概念
1.1 什么是 NLP
-
定义:
自然语言处理(NLP)**是一种让计算机理解、解释和生成人类语言的技术。它是人工智能领域中极为活跃且重要的研究方向,旨在模拟人类对语言的认知和使用过程
-
特点:
多学科交叉:结合计算机科学、人工智能、语言学和心理学等多学科知识。
目标:打破人类语言与计算机语言之间的障碍,实现无缝交流与互动。
NLP技术可执行多种复杂任务,包括:中文分词、子词切分、词性标注,文本分类、实体识别、关系抽取,文本摘要、机器翻译、自动问答等。这些任务不仅涉及语言表层结构的处理,还要求理解语言的深层含义,如语义、语境、情感和文化等复杂因素。
1.2 NLP 发展历程
NLP 的发展历程是从早期的规则基础方法,到统计方法,再到现在的机器学习和深度学习方法的演变过程。
1.3 NLP 任务
在NLP的广阔研究领域中,有几个核心任务构成了NLP领域的基础,它们涵盖了从文本的基本处理到复杂的语义理解和生成的各个方面。这些任务包括但不限于中文分词、子词切分、词性标注、文本分类、实体识别、关系抽取、文本摘要、机器翻译以及自动问答系统的开发。
1.4 文本表示的发展历程
文本表示是NLP的基础和必要工作,目的是将文本数据数字化,以便计算机处理。它涉及将语言单位及其关系转化为向量、矩阵等数据结构,需保留语义信息并兼顾计算与存储效率。其发展历程包括基于规则、统计学习和深度学习等阶段,不断演进以支持NLP发展。
参考资料:https://github.com/datawhalechina/happy-llm