当前位置: 首页 > wzjs >正文

短信平台鹤壁seo

短信平台,鹤壁seo,公司起名字大全免费查询,福州有什么做网站的公司Distributional Similarity in NLP(分布式相似性) 分布式相似性(Distributional Similarity) 是自然语言处理(NLP)中的核心概念,基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单…

Distributional Similarity in NLP(分布式相似性)

分布式相似性(Distributional Similarity) 是自然语言处理(NLP)中的核心概念,基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性,广泛应用于词向量、信息检索、文本分类等任务。

1. 分布式假设(Distributional Hypothesis)

分布式相似性基于以下假设:

“You shall know a word by the company it keeps.”
—— J. R. Firth (1957)

即,两个单词如果经常出现在相似的上下文中,那么它们的语义相似
例如:

  • “猫” 和 “狗” 经常出现在 “宠物”、“喜欢吃”、“可爱”等词的上下文中,因此它们的意义接近。
  • “汽车” 和 “自行车” 都出现在 “交通工具”、“驾驶”、“速度” 等上下文中,因此它们可能具有相似性。

2. 计算分布式相似性的方法

2.1 共现矩阵(Co-occurrence Matrix)

最基础的分布式相似性计算方法是共现矩阵

  • 统计一个词与不同词的共现次数,形成一个词-词矩阵。
  • 每个单词的向量由其共现次数构成。

示例:

汽车自行车可爱速度
5300100
350080
汽车0064010
自行车004609

问题:

  • 稀疏性:矩阵可能非常大,大量词对没有共现。
  • 维度灾难:单词的维度取决于整个词汇表大小,计算开销大。

2.2 词向量(Word Embeddings)

为了解决稀疏性问题,使用低维向量表示单词

  1. 基于共现矩阵的降维方法
    • PCA(主成分分析)
    • SVD(奇异值分解)
    • PPMI(正点互信息)
  2. 预测式方法(Neural-based Models)
    • Word2Vec(CBOW & Skip-Gram)
    • GloVe(基于矩阵分解)
    • FastText(子词信息)
    • BERT & Transformer Embeddings(上下文相关词向量)

示例:

from gensim.models import Word2Vec# 训练 Word2Vec
sentences = [["猫", "喜欢", "鱼"], ["狗", "喜欢", "骨头"], ["汽车", "行驶", "速度", "快"]]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, sg=0)# 获取 "猫" 的词向量
vector = model.wv["猫"]
print(vector)

3. 计算词相似性的方法

3.1 余弦相似度(Cosine Similarity)

余弦相似度衡量两个词向量的夹角:

  • sim ( A , B ) = A ⋅ B ∥ A ∥ ∥ B ∥ \text{sim}(A, B) = \frac{A \cdot B}{\|A\| \|B\|} sim(A,B)=A∥∥BAB

    结果范围:[][-1,1][−1,1]

  • 1 表示完全相似,0 表示不相关,-1 表示完全相反

3.2 欧几里得距离(Euclidean Distance)

d ( A , B ) = ∑ ( A i − B i ) 2 d(A, B) = \sqrt{\sum (A_i - B_i)^2} d(A,B)=(AiBi)2

  • 距离越小,词的相似度越高。
  • 适用于低维向量。

3.3 Jaccard 相似度

用于离散词袋模型

J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A, B) = \frac{|A \cap B|}{|A \cup B|} J(A,B)=ABAB

  • 适用于 n-gram、关键词提取。
http://www.dtcms.com/wzjs/93966.html

相关文章:

  • 做网站多久才会有收益哪家网络公司比较好
  • 网站建设 实例网站营销外包哪家专业
  • 做网站的公司好坑啊网络营销大师排行榜
  • 如何写网站建设方案游戏推广平台代理
  • 广州网站建设优化成都网站维护
  • 个人放款可以做网站抚顺网站seo
  • 网站一个一个关键词做市场营销毕业论文5000字
  • 无忧主机建站的过程推广软文模板
  • 上海服装品牌网站建设专业的seo排名优化
  • 微信做模板下载网站有哪些内容广州网络营销选择
  • 有什么做动画的网站怎么做网络营销
  • 做网站需要用到的符号语言晚上偷偷看b站软件推荐
  • 网站开发流行工具肇庆seo
  • 沈阳正规网站建设哪家便宜免费网络推广
  • 自己建网站流程要学什么深圳seo排名哪家好
  • 网站建设外包公司容易被客户投诉吗淘宝关键词排名查询工具免费
  • 广告公司网站建设策划书360开户
  • 接单做网站的网络营销课程
  • 南昌旅游网站建设方案怎么查看网站的友情链接
  • 本科网站开发毕业设计seo人员培训
  • 网站中如何做图片轮播北京网聘咨询有限公司
  • 高新区微网站建设谷歌海外推广怎么做
  • 官网网站源码北京优化网站建设
  • 正规的现货交易平台北京百度seo点击器
  • 网站建设项目特色怎么让百度收录
  • 17网站一起做网店档口出租北京网站推广营销策划
  • 网站添加缩略图seo广告平台
  • 手机网站模板 餐饮百度sem代运营
  • 烟台做网站百度推广广告收费标准
  • 做家常菜哪个网站最好企业seo自助建站系统