当前位置: 首页 > wzjs >正文

舞蹈培训网站模板东莞做网站优化

舞蹈培训网站模板,东莞做网站优化,建行网站是多少呢,长沙网页制作公司Distributional Similarity in NLP(分布式相似性) 分布式相似性(Distributional Similarity) 是自然语言处理(NLP)中的核心概念,基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单…

Distributional Similarity in NLP(分布式相似性)

分布式相似性(Distributional Similarity) 是自然语言处理(NLP)中的核心概念,基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性,广泛应用于词向量、信息检索、文本分类等任务。

1. 分布式假设(Distributional Hypothesis)

分布式相似性基于以下假设:

“You shall know a word by the company it keeps.”
—— J. R. Firth (1957)

即,两个单词如果经常出现在相似的上下文中,那么它们的语义相似
例如:

  • “猫” 和 “狗” 经常出现在 “宠物”、“喜欢吃”、“可爱”等词的上下文中,因此它们的意义接近。
  • “汽车” 和 “自行车” 都出现在 “交通工具”、“驾驶”、“速度” 等上下文中,因此它们可能具有相似性。

2. 计算分布式相似性的方法

2.1 共现矩阵(Co-occurrence Matrix)

最基础的分布式相似性计算方法是共现矩阵

  • 统计一个词与不同词的共现次数,形成一个词-词矩阵。
  • 每个单词的向量由其共现次数构成。

示例:

汽车自行车可爱速度
5300100
350080
汽车0064010
自行车004609

问题:

  • 稀疏性:矩阵可能非常大,大量词对没有共现。
  • 维度灾难:单词的维度取决于整个词汇表大小,计算开销大。

2.2 词向量(Word Embeddings)

为了解决稀疏性问题,使用低维向量表示单词

  1. 基于共现矩阵的降维方法
    • PCA(主成分分析)
    • SVD(奇异值分解)
    • PPMI(正点互信息)
  2. 预测式方法(Neural-based Models)
    • Word2Vec(CBOW & Skip-Gram)
    • GloVe(基于矩阵分解)
    • FastText(子词信息)
    • BERT & Transformer Embeddings(上下文相关词向量)

示例:

from gensim.models import Word2Vec# 训练 Word2Vec
sentences = [["猫", "喜欢", "鱼"], ["狗", "喜欢", "骨头"], ["汽车", "行驶", "速度", "快"]]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, sg=0)# 获取 "猫" 的词向量
vector = model.wv["猫"]
print(vector)

3. 计算词相似性的方法

3.1 余弦相似度(Cosine Similarity)

余弦相似度衡量两个词向量的夹角:

  • sim ( A , B ) = A ⋅ B ∥ A ∥ ∥ B ∥ \text{sim}(A, B) = \frac{A \cdot B}{\|A\| \|B\|} sim(A,B)=A∥∥BAB

    结果范围:[][-1,1][−1,1]

  • 1 表示完全相似,0 表示不相关,-1 表示完全相反

3.2 欧几里得距离(Euclidean Distance)

d ( A , B ) = ∑ ( A i − B i ) 2 d(A, B) = \sqrt{\sum (A_i - B_i)^2} d(A,B)=(AiBi)2

  • 距离越小,词的相似度越高。
  • 适用于低维向量。

3.3 Jaccard 相似度

用于离散词袋模型

J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A, B) = \frac{|A \cap B|}{|A \cup B|} J(A,B)=ABAB

  • 适用于 n-gram、关键词提取。
http://www.dtcms.com/wzjs/349866.html

相关文章:

  • 网站一定也做数据库吗网址大全浏览器app
  • 手机自助网站建设seo的基本内容
  • 游戏微网站模板营销软文广告
  • php网站链接数据库广州关键词排名推广
  • 广州建设大厦地址河南百度关键词优化排名软件
  • 做慈善黄色网站郑州网站建设推广有限公司
  • 网站如何做淘宝推广中国十大小说网站排名
  • 网站设计的建设目的如何用模板建站
  • 做电影资讯网站算侵权吗谷歌官方seo入门指南
  • 南昌网站建设企业典型的网络营销案例
  • 学生个人网页设计主题手机百度seo怎么优化
  • 做汽车团购的网站建设8大营销工具
  • 农家乐网站开发2022年小学生新闻摘抄十条
  • 芜湖营销型网站建设今日新闻国际头条新闻
  • 如何查网站备案号微信指数官网
  • 百度网盘怎样做网站线上销售渠道有哪些
  • jsp借书网站开发刷赞网站推广ks
  • 怎么可以预览自己做的网站如何软件网站优化公司
  • 专业网站制作全包好用的搜索引擎
  • 旅游网站html5代码西安seo建站
  • 网站开发分工友链交易交易平台
  • 泰安做网站的公司南宁百度seo排名公司
  • 陕西西安网站建设公司个人网站设计作品
  • 国外网页网站设计快速建站网站
  • 网站视差怎么做网络销售就是忽悠人
  • 网站栏目功能分析百度推广开户联系方式
  • 为公益组织做网站沪深300指数是什么意思
  • 新浪云sae免费wordpress网站如何制作网站和网页
  • 期货直播室网站建设廊坊关键词优化排名
  • 沈阳淘宝网站建设象山关键词seo排名