多种方式获取用户的相似度(附python源码)
多种方式获取用户的相似度
1、数据
有一份csv数据,用户评分商品数据,如下:
2、获取用户的相似度
余弦相似度(Cosine Similarity)是一种衡量两个向量方向相似度的指标,常用于文本分析、推荐系统、图像处理等领域。它基于向量的几何性质,计算两个向量夹角的余弦值来评估它们的相似程度。余弦相似度的值域范围是 [-1, 1],其中:
- 1 表示两个向量完全相同,方向完全一致。
- -1 表示两个向量方向完全相反。
- 0 表示两个向量正交(即90度夹角),没有线性相关性。
jaccard相似度(Jaccard Similarity)是一种用于比较有限样本集之间相似性和多样性的统计度量。
给定两个集合A和B,Jaccard相似度定义为A和B的交集大小与A和B的并集大小的比值,取值范围在0到1之间:
- 当J(A, B) = 1时,表示两个集合完全相同。
- 当J(A,