当前位置：首页 > news >正文

相似度度量方法

news 2025/11/11 6:42:10

推荐系统中的相似度度量方法研究

引言

在推荐系统中，计算用户或物品之间的相似度是核心任务之一。通过相似度计算，我们可以找到相似的用户或物品，进而实现协同过滤推荐。本文将详细介绍三种常用的相似度计算方法：余弦相似度、均方差相似度和皮尔逊相关系数，并对其数学原理进行推导分析。

1. 余弦相似度 (Cosine Similarity)

1.1 数学原理

余弦相似度通过计算两个向量间的夹角余弦值来度量它们的相似性。两个向量的夹角越小，相似度越高。当两个向量方向完全一致时，余弦值为1；当两个向量方向完全相反时，余弦值为-1；当两个向量正交时，余弦值为0。

1.2 数学公式推导

假设有两个用户A和B，它们对物品的评分分别表示为向量 $a⃗\vec{a}$ 和 $b⃗\vec{b}$ 。余弦相似度计算公式为：

$Cosine(A,B)=a⃗⋅b⃗∣∣a⃗∣∣⋅∣∣b⃗∣∣=∑i∈IABai×bi∑i∈IABai2×∑i∈IABbi2\text{Cosine}(A,B) = \frac{\vec{a} \cdot \vec{b}}{||\vec{a}|| \cdot ||\vec{b}||} = \frac{\sum_{i \in I_{AB}} a_i \times b_i}{\sqrt{\sum_{i \in I_{AB}} a_i^2} \times \sqrt{\sum_{i \in I_{AB}} b_i^2}}$

1.3 代码实现

// Cosine 余弦相似度
func Cosine(a []float64, b []float64) float64 {m, n, l := .0, .0, .0for i := range a {m += a[i] * a[i]n += b[i] * b[i]l += a[i] * b[i]}return l / (math.Sqrt(m) * math.Sqrt(n))
}

其中， $I_{AB}$ 表示用户A和用户B共同评分过的物品集合， $a_i$ 和 $b_i$ 分别表示用户A和用户B对物品i的评分。

2. 均方差相似度 (Mean Squared Difference Similarity)

2.1 数学原理

均方差相似度基于用户评分的差异来衡量物品相似性。它计算两个用户对共同评分项目的评分差异，差异越小，相似度越高。

2.2 数学公式推导

MSD首先计算两个用户对共同评分物品的评分差的平方和的平均值（即均方误差MSE），然后将其转化为相似度：

$MSE(A,B)=1∣IAB∣∑i∈IAB(ai−bi)2\text{MSE}(A,B) = \frac{1}{|I_{AB}|}\sum_{i \in I_{AB}}(a_i - b_i)^2$

$MSD(A,B)=1MSE+1=11∣IAB∣∑i∈IAB(ai−bi)2+1\text{MSD}(A,B) = \frac{1}{\text{MSE} + 1} = \frac{1}{\frac{1}{|I_{AB}|}\sum_{i \in I_{AB}}(a_i - b_i)^2 + 1}$

2.3 代码实现

// MSD 均方差相似度
func MSD(a []float64, b []float64) float64 {count := .0sum := .0for i := range a {if !(math.IsNaN(a[i]) || math.IsNaN(b[i])) {sum += (a[i] - b[i]) * (a[i] - b[i])count++}}return 1.0 / (sum/count + 1.0)
}

其中， $I_{AB}|$ 表示A和B共同评分的物品数量。分母加1是为了避免除以零的情况，同时确保相似度在0到1之间。当两个用户的评分完全一致时，MSE为0，MSD为1；当评分差异无穷大时，MSD趋近于0。

3. 皮尔逊相关系数 (Pearson Correlation Coefficient)

3.1 数学原理

皮尔逊相关系数衡量两个变量间的线性相关程度。它通过去中心化处理，有效消除了用户评分尺度不一致的问题。相关系数范围为[-1, 1]，1表示完全正相关，-1表示完全负相关，0表示无相关性。

3.2 数学公式推导

首先计算用户A和B的平均评分：

$aˉ=1∣IA∣∑i∈IAai\bar{a} = \frac{1}{|I_A|}\sum_{i \in I_A}a_i$
$bˉ=1∣IB∣∑i∈IBbi\bar{b} = \frac{1}{|I_B|}\sum_{i \in I_B}b_i$

然后计算相关系数：

$Pearson(A,B)=∑i∈IAB(ai−aˉ)(bi−bˉ)∑i∈IAB(ai−aˉ)2∑i∈IAB(bi−bˉ)2\text{Pearson}(A,B) = \frac{\sum_{i \in I_{AB}}(a_i-\bar{a})(b_i-\bar{b})}{\sqrt{\sum_{i \in I_{AB}}(a_i-\bar{a})^2}\sqrt{\sum_{i \in I_{AB}}(b_i-\bar{b})^2}}$

3.3 代码实现

// Pearson 皮尔逊相似度
func Pearson(a []float64, b []float64) float64 {// A 平均值count, sum := .0, .0for i := range a {sum += a[i]count += 1}meanA := sum / count// B 平均值count, sum = .0, .0for i := range b {sum += b[i]count += 1}meanB := sum / count//// 去中心化的余弦相似度m, n, l := .0, .0, .0for i := range a {if !(math.IsNaN(a[i]) || math.IsNaN(b[i])) {ratingA := a[i] - meanAratingB := b[i] - meanBm += ratingA * ratingAn += ratingB * ratingBl += ratingA * ratingB}}return l / (math.Sqrt(m) * math.Sqrt(n))
}