人工智能-自然语言与语音产品实现
一、语义相似度
(一)、文本向量化
1、文本向量化(Text Vectorization) 是自然语言处理(NLP)中的核心预处理步骤,旨在将人类语言的文本转换为计算机可处理的数值向量(数学表达),以便机器学习模型提取语义特征、进行数据分析。
2、Word Embedding(词嵌入) 是一种将自然语言中的词语转换为连续向量空间中的稠密向量(Dense Vector)的技术。其核心思想是通过模型训练,使语义相近的词语在向量空间中具有相近的位置,从而捕捉词语之间的语义关系(如上下位关系、类比关系等)。
(二)、word2ver 模型
1、模型原理:Word2Vec 通过构建浅而双层的神经网络,以词袋模型为基础,利用 Skip-gram 或连续词袋(CBOW)来建立神经词嵌入。它将每个单词映射为低维向量空间中的一个向量,向量之间的距离反映了单词之间的语义相似性。
2、核心:通过词语的上下文信息来学习词语的向量表示。
3、CBOW模型:给定一个上下文,预测到词语。(输入多个预测出一个,多对一的关系)
4、 Skip-gram模型:给定一个词语,预测到上下文。(输入一个预测出一个,一对多的关系)
一、情感分析
更新中
一、transformer模型
更新中
train_test_split
是 sklearn.model_selection
模块中的一个重要函数,主要用于将数据集划分成训练集和测试集,