当前位置: 首页 > wzjs >正文

17网站一起做网店白沟百度浏览官网

17网站一起做网店白沟,百度浏览官网,天津建设工程网站,flash网站php源码Distributional Similarity in NLP(分布式相似性) 分布式相似性(Distributional Similarity) 是自然语言处理(NLP)中的核心概念,基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单…

Distributional Similarity in NLP(分布式相似性)

分布式相似性(Distributional Similarity) 是自然语言处理(NLP)中的核心概念,基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性,广泛应用于词向量、信息检索、文本分类等任务。

1. 分布式假设(Distributional Hypothesis)

分布式相似性基于以下假设:

“You shall know a word by the company it keeps.”
—— J. R. Firth (1957)

即,两个单词如果经常出现在相似的上下文中,那么它们的语义相似
例如:

  • “猫” 和 “狗” 经常出现在 “宠物”、“喜欢吃”、“可爱”等词的上下文中,因此它们的意义接近。
  • “汽车” 和 “自行车” 都出现在 “交通工具”、“驾驶”、“速度” 等上下文中,因此它们可能具有相似性。

2. 计算分布式相似性的方法

2.1 共现矩阵(Co-occurrence Matrix)

最基础的分布式相似性计算方法是共现矩阵

  • 统计一个词与不同词的共现次数,形成一个词-词矩阵。
  • 每个单词的向量由其共现次数构成。

示例:

汽车自行车可爱速度
5300100
350080
汽车0064010
自行车004609

问题:

  • 稀疏性:矩阵可能非常大,大量词对没有共现。
  • 维度灾难:单词的维度取决于整个词汇表大小,计算开销大。

2.2 词向量(Word Embeddings)

为了解决稀疏性问题,使用低维向量表示单词

  1. 基于共现矩阵的降维方法
    • PCA(主成分分析)
    • SVD(奇异值分解)
    • PPMI(正点互信息)
  2. 预测式方法(Neural-based Models)
    • Word2Vec(CBOW & Skip-Gram)
    • GloVe(基于矩阵分解)
    • FastText(子词信息)
    • BERT & Transformer Embeddings(上下文相关词向量)

示例:

from gensim.models import Word2Vec# 训练 Word2Vec
sentences = [["猫", "喜欢", "鱼"], ["狗", "喜欢", "骨头"], ["汽车", "行驶", "速度", "快"]]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, sg=0)# 获取 "猫" 的词向量
vector = model.wv["猫"]
print(vector)

3. 计算词相似性的方法

3.1 余弦相似度(Cosine Similarity)

余弦相似度衡量两个词向量的夹角:

  • sim ( A , B ) = A ⋅ B ∥ A ∥ ∥ B ∥ \text{sim}(A, B) = \frac{A \cdot B}{\|A\| \|B\|} sim(A,B)=A∥∥BAB

    结果范围:[][-1,1][−1,1]

  • 1 表示完全相似,0 表示不相关,-1 表示完全相反

3.2 欧几里得距离(Euclidean Distance)

d ( A , B ) = ∑ ( A i − B i ) 2 d(A, B) = \sqrt{\sum (A_i - B_i)^2} d(A,B)=(AiBi)2

  • 距离越小,词的相似度越高。
  • 适用于低维向量。

3.3 Jaccard 相似度

用于离散词袋模型

J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A, B) = \frac{|A \cap B|}{|A \cup B|} J(A,B)=ABAB

  • 适用于 n-gram、关键词提取。
http://www.dtcms.com/wzjs/129737.html

相关文章:

  • 苏州市最新疫情免费刷seo
  • 触屏手机网站拼多多seo 优化软件
  • 盐城做网站的哪家公司好怎么创建网站平台
  • 无广告自助建站百度邮箱登录入口
  • 温州专业网站建设seo推广方法集合
  • 深圳市建设网站营销培训方案
  • 国外商品网站百度关键词排名价格
  • 让做网站策划没经验怎么办网店如何引流与推广
  • 网站建设合同标准版搜索引擎营销方案例子
  • 萧山网站优化seo模板建站
  • wordpress法律主题关键词优化教程
  • 朝阳区北京网站建设快速建站教程
  • 国外优秀论文网站百度开户需要什么条件
  • 上海建设网站制作国产长尾关键词拘挖掘
  • 滨湖区知名做网站价格清远今日头条新闻
  • 做网站最大的公司友情链接获取的途径有哪些
  • seo推广岗位职责四川seo优化
  • 福州网站建设招商网络软营销
  • 替代 wordpress基本seo技术在线咨询
  • 怎样做网站收录seo工程师是什么职业
  • 株洲市哪里有做公司官方网站沧州网站seo公司
  • 平台建网站恢复正常百度
  • 网站做研究生毕业论文代写文章质量高的平台
  • 体育网站建设的必要性市场seo是什么意思
  • 网站账户上的余额分录怎么做做seo需要哪些知识
  • 网站开发能从事那些职业网站seo视频狼雨seo教程
  • 南昌网站开发公司电话seo网站建设公司
  • 昆明网络推广昆明网站建设昆明昆明什么是sem和seo
  • 织梦网站广告公众号代运营
  • jtbc网站开发教程seo流量软件