【大模型05】Embedding和向量数据库
主要内容
基于内容的推荐
为酒店建立内容推荐系统
西雅图酒店数据集:
• 下 载 地 址 : https://github.com/susanli2016/MachineLearning-with-Python/blob/master/Seattle_Hotels.csv
• 字段:name, address, desc
• 基于用户选择的酒店,推荐相似度高的Top10个其他酒店
• 方法:计算当前酒店特征向量与整个酒店特征矩阵的余弦相似度,取相似度最大的Top-k个
余弦相似度:
• 通过测量两个向量的夹角的余弦值来度量它们之间的相似性。
• 判断两个向量⼤致方向是否相同,方向相同时,余弦相似度为1;两个向量夹角为90°时,余弦相似度的值
为0,方向完全相反时,余弦相似度的值为-1。
• 两个向量之间夹角的余弦值为[-1, 1]
给定属性向量A和B,A和B之间的夹角θ余弦值可以通过点积和向量长度计算得出