如何最简单、通俗地理解什么是NLP?
简单来说自然语言处理(NLP)就是让计算机理解人类语言。
每天,我们通过聊天、发微博会产生大量数据。据统计,全球仅有21%的数据是结构化的,剩下79%都是非结构化。这些非结构化数据中,文本占了很大比例,需要整理才能提取有用的信息。这就是NLP需要做的:理解人类语言。
NLP的基本原理是什么?
要让机器理解语言,第一步是阅读,但机器看到的不是一个个字或词,而是一串串代码。所以,第一步通常是把我们说的一段话或者写的一篇文章,拆分成更小的单元,比如词语、标点符号。这个过程在NLP里叫做分词。
举个例子:“我爱玩手机”这句话,经过分词,就变成了我、爱、玩、手机这几个独立的单元(Token)。最简单的分词方法就是按空格或者标点符号来切分。当然,实际的分词会更复杂,需要考虑像New-York这样的复合词,或者中文里没有明显空格的情况。
有时候,我们不只关心单个词,还关心词语组合。比如我爱、爱我、玩手、手机,这种两个词连在一起叫二