【推荐系统】推荐系统常用数据集介绍
目录
第一次
表格总结
逐个详细分析:
1. MovieLens
2. Netflix Prize
3. Amazon Reviews
4. Yelp
5. Book-Crossing
6. Last.fm
7. Jester
8. Million Song Dataset
9. MIND (Microsoft News Dataset)
10. Epinions
第二次
表格总结
逐个详细分析
1. Steam Video Games
2. Microsoft News Dataset (MIND)
3. Food.com Recipes
4. Retailrocket E-commerce
5. Yahoo! Music Ratings
6. Criteo Display Ads
7. Twitch Streaming
第一次
表格总结
在推荐系统领域广泛使用的公开数据集。这些数据集主要来源于学术研究、竞赛和平台共享等,下面是对这些数据集的详细分析。
为了清晰呈现,我先用表格总结关键信息,然后逐一详细阐述。表格中数据来源于检索结果的汇总。
数据集名称 | 来源 | 规模 | 主要内容 | 适用推荐类型 |
---|---|---|---|---|
MovieLens | GroupLens Research | 多种版本:从100K到33M评分 | 用户对电影的评分、标签、元数据 | 协作过滤、内容推荐 |
Netflix Prize | Netflix竞赛 | 约1亿评分 | 用户对电影的评分 | 协作过滤 |
Amazon Reviews | Amazon产品评论 | 多种类别:142.8M评论 | 产品评论、评分、元数据 | 产品推荐、混合推荐 |
Yelp | Yelp平台 | 6.99M评论,150K商家 | 商家评论、照片、用户数据 | 位置-based推荐 |
Book-Crossing | Book-Crossing社区 | 约1M评分 | 用户对书籍的评分、书籍元数据 | 书籍推荐、协作过滤 |
Last.fm | Last.fm音乐平台 | 1B+听歌事件 | 用户听歌记录、艺术家标签 | 音乐推荐、序列推荐 |
Jester | Jester笑话推荐系统 | 多种版本:约4M评分 | 用户对笑话的评分 | 幽默推荐、矩阵分解 |
Million Song Dataset | Echo Nest | 1M歌曲 | 歌曲元数据、音频特征 | 音乐内容推荐 |
MIND (Microsoft News Dataset) | Microsoft | 大规模:行为日志 | 新闻点击、用户行为 | 新闻推荐、点击预测 |
Epinions | Epinions评论网站 | 181K评分,116K用户 | 用户评论、社会关系 | 社会推荐、信任-based |
逐个详细分析:
1. MovieLens
MovieLens 是由 GroupLens Research 维护的经典数据集,常用于推荐系统基准测试。它有多个版本,包括100K(10万评分,由700用户对9000电影)、1M(100万评分)、10M、20M(2000万评分,13.8万用户对2.7万电影)、25M和最新版本(33M评分,33万用户对8.6万电影)。内容包括用户ID、电影ID、评分(1-5分)、时间戳、标签(tag)和电影元数据(如类型、年份)。该数据集的优势在于数据干净、稳定,且包含标签数据,便于内容-based推荐;缺点是规模相对较小(相比Netflix),可能不反映真实世界噪声。典型应用:用于矩阵分解算法如SVD、ALS的评估,常在学术论文中作为基准,如在Kaggle竞赛或RecSys会议中。下载需填写许可表单。
2. Netflix Prize
Netflix Prize数据集源于2006-2009年的Netflix推荐竞赛,旨在提升协作过滤算法。该数据集包含约1亿评分,由48万用户对1.7万电影给出(1-5分),每个评分包括用户ID、电影ID、评分和日期。内容纯净,仅聚焦于评分矩阵,无额外元数据。优势:规模巨大,适合测试大规模推荐算法的效率和准确性(如RMSE指标);缺点:数据匿名化但曾引发隐私争议(可通过链接IMDb反匿名),且竞赛后不再公开更新。典型应用:用于竞赛式学习,如BellKor's Pragmatic Chaos团队赢得100万美元奖金。该数据集推动了推荐系统的发展,常用于基准测试协作过滤模型。
3. Amazon Reviews
Amazon Reviews数据集收集自亚马逊平台,涵盖24个类别(如书籍、电子产品),总计1.428亿评论(从1996年5月到2014年7月)。每个评论包括用户ID、产品ID、评分(1-5分)、评论文本、时间戳和产品元数据(如价格、描述)。优势:真实世界数据丰富,包含文本可用于NLP增强推荐;缺点:数据稀疏(许多用户只评论一次),且类别不均。典型应用:产品推荐系统,如基于内容的TF-IDF或混合模型;在深度学习中,用于嵌入学习(如Word2Vec on reviews)。常在UCSD的Julian McAuley研究中使用。
4. Yelp
Yelp数据集来自Yelp平台,包含699万评论、15万商家、20万照片,覆盖11个都市区。内容包括商家属性(小时、停车、氛围)、用户评论、评分、检查-in数据和用户元数据。优势:多模态数据(文本+图像+位置),适合位置-based和多模态推荐;缺点:地理限制于特定城市,数据可能有噪声(如假评论)。典型应用:餐厅或商家推荐,如使用图神经网络整合社会和位置信息;在Kaggle竞赛中用于预测评分或偏好。
5. Book-Crossing
Book-Crossing数据集源于Book-Crossing社区,包含约100万评分,由27.8万用户对27万书籍给出(隐式或显式评分1-10分)。内容包括用户ID、书籍ISBN、评分、书籍元数据(如作者、年份、出版商)。优势:书籍领域专一,包含人口统计信息(如用户年龄、位置);缺点:数据稀疏,许多书籍只有少量评分。典型应用:书籍推荐系统,如协作过滤或内容-based(基于书籍描述);常用于测试冷启动问题,在Kaggle上有专用版本。
6. Last.fm
Last.fm数据集(如LFM-1b)包含超过10亿听歌事件,由12万用户记录,涉及艺术家、歌曲和标签。内容包括用户ID、艺术家ID、听歌次数、时间戳和扩展的流派标签(从Allmusic)。优势:序列数据丰富,适合时间序列推荐(如RNN-based);缺点:由于许可问题,下载受限,且偏向流行音乐。典型应用:音乐推荐,如基于隐式反馈的矩阵分解;在ICMR 2016论文中用于评估用户偏好建模。
7. Jester
Jester数据集来自Jester笑话推荐系统,有多个版本,总计约400万评分,由7.3万用户对100个笑话给出(-10到+10分)。内容仅包括用户ID、笑话ID和评分,无额外元数据。优势:小规模、简单,适合初学者测试算法;缺点:领域狭窄(仅笑话),评分主观性强。典型应用:用于矩阵分解基准,如在早期推荐研究中评估SVD;常作为教学数据集。
8. Million Song Dataset
Million Song Dataset 包含100万歌曲的元数据,包括音频特征(节奏、音高)、艺术家信息、标签和相似歌曲。内容不包括实际音频文件,但有Echo Nest API链接。优势:内容丰富,适合内容-based音乐推荐;缺点:缺乏用户交互数据,需与其他数据集结合使用。典型应用:歌曲推荐,如使用音频嵌入的深度学习模型;在音乐信息检索会议中常见。
9. MIND (Microsoft News Dataset)
MIND数据集用于新闻推荐研究,收集自Microsoft News的匿名行为日志,包括点击、印象和用户历史。规模大型(具体版本差异,如MIND-small有16万新闻),内容包括新闻ID、用户ID、点击行为、新闻元数据(如标题、摘要、类别)。优势:实时性强,包含负面样本(未点击),适合CTR预测;缺点:隐私处理导致数据不全,偏向英文新闻。典型应用:新闻推荐基准,如使用BERT处理文本;在Medium文章中作为基准数据集。
10. Epinions
Epinions数据集来自Epinions网站,包含18.1万评分、11.6万用户、4.1万物品,以及18.1万社会关系(trust links)。内容包括用户评论、价格和社会元数据。优势:整合社交网络,适合信任-based或图推荐;缺点:数据较旧(~2017前),规模中等。典型应用:社会推荐,如使用随机游走算法;在IJCAI 2017论文中用于稀疏序列推荐。
第二次
表格总结
数据集名称 | 描述 | 领域 | 下载链接 |
---|---|---|---|
Steam Video Games | 来自Steam平台的用户行为数据,包括购买、游玩时间和游戏标题,支持游戏推荐和行为分析。 | 游戏推荐 | Recommender Systems Datasets |
Microsoft News Dataset (MIND) | 大规模新闻推荐数据集,包含匿名用户行为日志,用于新闻个性化推荐和点击预测。 | 新闻推荐 | https://github.com/msnews/msnews.github.io |
Food.com Recipes | 来自Food.com的食谱细节、评论和用户互动数据,支持食谱推荐和变体匹配(如素食版本)。 | 食谱/餐饮推荐 | Food.com Recipes and Interactions | Kaggle |
Retailrocket E-commerce | 来自电商网站的真实行为数据,包括浏览、点击和购买事件,用于会话-based推荐。 | 电商推荐 | Retailrocket recommender system dataset | Kaggle |
Yahoo! Music Ratings | 来自Yahoo! Music的1000万条艺术家评分数据,用于验证协同过滤和聚类算法。 | 音乐推荐 | https://webscope.sandbox.yahoo.com/catalog.php?datatype=r |
Criteo Display Ads | 来自Criteo的广告点击数据,用于CTR预测和广告推荐,包含数天内的流量日志。 | 广告推荐 | Display Advertising Challenge | Kaggle |
Twitch Streaming | 来自Twitch平台的用户观看行为数据,每10分钟记录一次,覆盖43天,用于内容消费推荐。 | 视频/直播推荐 | Recommender Systems Datasets |
数据集名称 | 来源 | 规模 | 主要内容 | 适用推荐类型 |
---|---|---|---|---|
Steam Video Games | Steam平台(Valve公司),Kaggle和GitHub共享 | 约779万评论,256万用户,3.2万游戏 | 用户行为(购买、玩耍)、评论、游戏元数据、捆绑信息 | 协作过滤、内容推荐、序列推荐 |
Microsoft News Dataset (MIND) | Microsoft News网站匿名日志 | 100万用户,16万新闻文章,数百万行为日志 | 用户点击、印象日志、新闻元数据(标题、摘要、类别) | 新闻推荐、点击率预测(CTR)、序列推荐 |
Food.com Recipes | Food.com(前身为GeniusKitchen)平台 | 约18万食谱,70万用户评论 | 食谱细节(成分、营养、步骤)、用户评分、评论文本、标签 | 内容推荐、协作过滤、混合推荐 |
Retailrocket E-commerce | Retailrocket公司(e-commerce个性化服务) | 4.5个月行为数据,数百万事件(点击、加购、交易) | 用户行为日志、物品属性、类别树 | 会话-based推荐、产品推荐、CTR预测 |
Yahoo! Music Ratings | Yahoo! Music社区 | 100万用户,60万音乐物品,2.5亿评分 | 用户对轨道、专辑、艺术家、流派的评分,四级层次结构 | 音乐推荐、层次推荐、协作过滤 |
Criteo Display Ads | Criteo公司(广告技术平台) | 7天数据,数百万展示广告,1TB点击日志 | 特征值(13连续+26类别)、点击反馈 | CTR预测、广告推荐、深度学习推荐 |
Twitch Streaming | Twitch平台(直播流媒体) | 用户消耗流媒体记录,每10分钟采样streamer和聊天用户 | streamer信息、用户聊天连接、互动行为 | 直播推荐、实时推荐、社区推荐 |
逐个详细分析
1. Steam Video Games
Steam Video Games数据集来源于Steam平台(Valve公司运营的领先在线游戏商店),数据通过Kaggle和GitHub等平台公开共享,常用于游戏推荐研究。该数据集规模较大,包含约4100万用户推荐(评论),涉及256万用户和3.2万游戏(一些版本扩展到7.79万评论)。内容特征包括用户ID、游戏标题、行为类型(购买、玩耍时间)、价值(如玩耍小时数)、评论文本、游戏元数据(如类型、标签、开发者)和捆绑信息(bundle)。适用推荐类型主要为协作过滤(基于用户行为矩阵)、内容推荐(利用游戏标签和描述)和序列推荐(考虑玩耍顺序和时间序列)。优势:数据真实且丰富,包含多模态信息(文本+行为),适合测试大规模算法;缺点:数据可能有噪声(如负面评论偏见),隐私匿名化导致某些特征缺失,且偏向PC游戏。典型应用:游戏平台个性化推荐,如使用矩阵分解或深度学习模型(如Graph Neural Networks)预测用户兴趣;在Kaggle竞赛中用于构建推荐引擎,推动独立游戏发现。
2. Microsoft News Dataset (MIND)
Microsoft News Dataset (MIND)来源于Microsoft News网站的匿名行为日志,是为新闻推荐基准设计的公开数据集,有多个版本(如MIND-small、MIND-large)。规模包括100万用户、16万新闻文章和数百万行为日志(MIND-large扩展到数亿印象和点击)。内容特征包括用户ID、新闻ID、点击行为(正面/负面样本)、印象日志(显示但未点击)、新闻元数据(标题、摘要、类别、实体、URL)和用户历史浏览。适用推荐类型主要为新闻推荐、点击率预测(CTR,使用深度模型如BERT)、序列推荐(基于浏览历史)。优势:包含负面样本,便于训练鲁棒模型;数据实时性强,适合冷启动问题;缺点:匿名化导致用户特征有限,偏向英文新闻,可能有地域偏差。典型应用:新闻聚合器推荐,如在Microsoft Research中使用NRMS(Neural News Recommendation with Multi-head Self-attention)模型评估;在ACL 2020论文中作为基准,推动个性化新闻系统发展。
3. Food.com Recipes
Food.com Recipes数据集来源于Food.com平台(前身为GeniusKitchen),通过Kaggle共享,常用于食品推荐研究。规模约18万食谱、70万用户互动(包括评分和评论)。内容特征包括食谱ID、名称、成分列表、营养信息(卡路里、蛋白质等)、烹饪步骤、时间/侍应信息、用户评分(1-5分)、评论文本和标签(饮食偏好如素食)。适用推荐类型主要为内容推荐(基于成分相似性)、协作过滤(用户评分矩阵)和混合推荐(结合健康因素)。优势:多维度数据(营养+文本),适合健康-aware推荐;真实用户反馈丰富;缺点:数据稀疏(许多食谱评分少),文化偏向西方饮食。典型应用:食谱App个性化建议,如使用TF-IDF或图模型预测用户偏好;在机器学习论文中用于营养平衡推荐系统,解决饮食多样性问题。
4. Retailrocket E-commerce
Retailrocket E-commerce数据集来源于Retailrocket公司(提供e-commerce个性化服务),通过Kaggle公开。规模覆盖4.5个月行为数据,约275万事件、140万用户和数千物品。内容特征包括用户ID、时间戳、事件类型(查看、加购物车、购买)、物品ID、属性(类别、价格、描述)和会话信息。适用推荐类型主要为会话-based推荐(短期行为预测)、产品推荐(协作过滤)和CTR预测(点击行为)。优势:序列数据完整,适合实时推荐;包含多种事件类型,便于多任务学习;缺点:匿名化特征有限,数据周期短可能不反映长期趋势。典型应用:在线商店推荐引擎,如使用GRU4Rec模型处理会话序列;在e-commerce研究中用于客户行为分析和转化率优化。
5. Yahoo! Music Ratings
Yahoo! Music Ratings数据集来源于Yahoo! Music社区,源于KDD Cup 2011竞赛,通过学术平台共享。规模约100万用户、60万音乐物品(轨道、专辑、艺术家、流派)和2.5亿评分。内容特征包括用户ID、物品ID、四级层次结构(轨道<专辑<艺术家<流派)、显式评分(0-100分)和时间戳。适用推荐类型主要为音乐推荐、层次推荐(多级结构)和协作过滤(基于评分矩阵)。优势:层次化数据独特,适合测试多级模型;规模大,评分细粒度;缺点:数据较旧(2011前),缺少内容特征如音频;主观评分可能有偏差。典型应用:音乐流媒体服务,如使用层次矩阵分解算法;在KDD论文中作为基准,处理稀疏性和冷启动问题。
6. Criteo Display Ads
Criteo Display Ads数据集来源于Criteo公司(广告技术平台),为CTR预测竞赛公开,有多个版本(如1TB日志)。规模覆盖7天数据、约4500万条记录(数百万展示广告)和1TB点击日志。内容特征包括13个连续特征(匿名数值如计数)、26个类别特征(匿名如用户段)、点击标签(0/1)和时间戳。适用推荐类型主要为CTR预测、广告推荐和深度学习推荐(如Wide & Deep模型)。优势:规模巨大,适合基准测试大规模算法;包含真实点击反馈;缺点:特征高度匿名化,解释性差;数据噪声高,需要大量预处理。典型应用:在线广告平台,如使用DeepFM模型预测点击率;在arXiv论文中作为CTR基准,推动特征交互学习。
7. Twitch Streaming
Twitch Streaming数据集来源于Twitch平台(亚马逊旗下的直播流媒体),通过学术数据集(如UCSD的Julian McAuley组)共享。规模包括用户消耗流媒体记录,每10分钟采样streamer和聊天用户(约数百万连接,覆盖数千streamer)。内容特征包括streamer ID、用户ID、聊天互动、观看时间、社区标签和时间序列数据(动态可用性)。适用推荐类型主要为直播推荐、实时推荐(基于当前在线)和社区推荐(图-based)。优势:动态数据捕捉实时行为,适合图神经网络;包含社交元素如聊天;缺点:数据采集周期短,隐私限制导致匿名;偏向游戏直播。典型应用:流媒体平台推荐,如使用随机游走算法预测用户偏好;在OARS工作坊中用于评估动态可用性和消费平衡。如果需要更多细节或代码示例,我可以进一步扩展。
第三次
待续