NLP学习路线图(三十三): 文本分类
一、文本分类:定义与无处不在的应用
-
本质: 将文本片段(句子、段落、文档)映射到预定义类别集合中的一个或多个类别。
-
核心任务:
-
单标签分类 (Single-Label): 一篇新闻只能属于“体育”、“科技”、“娱乐”等中的一个类别。
-
多标签分类 (Multi-Label): 一篇关于“搭载最新AI芯片的智能手机”的新闻,可以同时属于“科技”、“电子产品”、“人工智能”等多个类别。
-
层级分类 (Hierarchical): 类别本身具有树状结构(如“科技” -> “电子产品” -> “手机”)。分类需要在层级路径上定位文本。
-
应用场景渗透生活与工作的方方面面:
-
情感分析 (Sentiment Analysis): 判断