当前位置：首页 > news >正文

【推荐系统】推荐系统常用数据集介绍

news 2025/10/29 10:40:05

第一次

表格总结

逐个详细分析：

1. MovieLens

2. Netflix Prize

3. Amazon Reviews

4. Yelp

5. Book-Crossing

6. Last.fm

7. Jester

8. Million Song Dataset

9. MIND (Microsoft News Dataset)

10. Epinions

第二次

表格总结

逐个详细分析

1. Steam Video Games

2. Microsoft News Dataset (MIND)

3. Food.com Recipes

4. Retailrocket E-commerce

5. Yahoo! Music Ratings

6. Criteo Display Ads

7. Twitch Streaming

第一次

表格总结

在推荐系统领域广泛使用的公开数据集。这些数据集主要来源于学术研究、竞赛和平台共享等，下面是对这些数据集的详细分析。

为了清晰呈现，我先用表格总结关键信息，然后逐一详细阐述。表格中数据来源于检索结果的汇总。

数据集名称	来源	规模	主要内容	适用推荐类型
MovieLens	GroupLens Research	多种版本：从100K到33M评分	用户对电影的评分、标签、元数据	协作过滤、内容推荐
Netflix Prize	Netflix竞赛	约1亿评分	用户对电影的评分	协作过滤
Amazon Reviews	Amazon产品评论	多种类别：142.8M评论	产品评论、评分、元数据	产品推荐、混合推荐
Yelp	Yelp平台	6.99M评论，150K商家	商家评论、照片、用户数据	位置-based推荐
Book-Crossing	Book-Crossing社区	约1M评分	用户对书籍的评分、书籍元数据	书籍推荐、协作过滤
Last.fm	Last.fm音乐平台	1B+听歌事件	用户听歌记录、艺术家标签	音乐推荐、序列推荐
Jester	Jester笑话推荐系统	多种版本：约4M评分	用户对笑话的评分	幽默推荐、矩阵分解
Million Song Dataset	Echo Nest	1M歌曲	歌曲元数据、音频特征	音乐内容推荐
MIND (Microsoft News Dataset)	Microsoft	大规模：行为日志	新闻点击、用户行为	新闻推荐、点击预测
Epinions	Epinions评论网站	181K评分，116K用户	用户评论、社会关系	社会推荐、信任-based

逐个详细分析：

1. MovieLens

MovieLens 是由 GroupLens Research 维护的经典数据集，常用于推荐系统基准测试。它有多个版本，包括100K（10万评分，由700用户对9000电影）、1M（100万评分）、10M、20M（2000万评分，13.8万用户对2.7万电影）、25M和最新版本（33M评分，33万用户对8.6万电影）。内容包括用户ID、电影ID、评分（1-5分）、时间戳、标签（tag）和电影元数据（如类型、年份）。该数据集的优势在于数据干净、稳定，且包含标签数据，便于内容-based推荐；缺点是规模相对较小（相比Netflix），可能不反映真实世界噪声。典型应用：用于矩阵分解算法如SVD、ALS的评估，常在学术论文中作为基准，如在Kaggle竞赛或RecSys会议中。下载需填写许可表单。

2. Netflix Prize

Netflix Prize数据集源于2006-2009年的Netflix推荐竞赛，旨在提升协作过滤算法。该数据集包含约1亿评分，由48万用户对1.7万电影给出（1-5分），每个评分包括用户ID、电影ID、评分和日期。内容纯净，仅聚焦于评分矩阵，无额外元数据。优势：规模巨大，适合测试大规模推荐算法的效率和准确性（如RMSE指标）；缺点：数据匿名化但曾引发隐私争议（可通过链接IMDb反匿名），且竞赛后不再公开更新。典型应用：用于竞赛式学习，如BellKor's Pragmatic Chaos团队赢得100万美元奖金。该数据集推动了推荐系统的发展，常用于基准测试协作过滤模型。

3. Amazon Reviews

Amazon Reviews数据集收集自亚马逊平台，涵盖24个类别（如书籍、电子产品），总计1.428亿评论（从1996年5月到2014年7月）。每个评论包括用户ID、产品ID、评分（1-5分）、评论文本、时间戳和产品元数据（如价格、描述）。优势：真实世界数据丰富，包含文本可用于NLP增强推荐；缺点：数据稀疏（许多用户只评论一次），且类别不均。典型应用：产品推荐系统，如基于内容的TF-IDF或混合模型；在深度学习中，用于嵌入学习（如Word2Vec on reviews）。常在UCSD的Julian McAuley研究中使用。

4. Yelp

Yelp数据集来自Yelp平台，包含699万评论、15万商家、20万照片，覆盖11个都市区。内容包括商家属性（小时、停车、氛围）、用户评论、评分、检查-in数据和用户元数据。优势：多模态数据（文本+图像+位置），适合位置-based和多模态推荐；缺点：地理限制于特定城市，数据可能有噪声（如假评论）。典型应用：餐厅或商家推荐，如使用图神经网络整合社会和位置信息；在Kaggle竞赛中用于预测评分或偏好。

5. Book-Crossing

Book-Crossing数据集源于Book-Crossing社区，包含约100万评分，由27.8万用户对27万书籍给出（隐式或显式评分1-10分）。内容包括用户ID、书籍ISBN、评分、书籍元数据（如作者、年份、出版商）。优势：书籍领域专一，包含人口统计信息（如用户年龄、位置）；缺点：数据稀疏，许多书籍只有少量评分。典型应用：书籍推荐系统，如协作过滤或内容-based（基于书籍描述）；常用于测试冷启动问题，在Kaggle上有专用版本。

6. Last.fm

Last.fm数据集（如LFM-1b）包含超过10亿听歌事件，由12万用户记录，涉及艺术家、歌曲和标签。内容包括用户ID、艺术家ID、听歌次数、时间戳和扩展的流派标签（从Allmusic）。优势：序列数据丰富，适合时间序列推荐（如RNN-based）；缺点：由于许可问题，下载受限，且偏向流行音乐。典型应用：音乐推荐，如基于隐式反馈的矩阵分解；在ICMR 2016论文中用于评估用户偏好建模。

7. Jester

Jester数据集来自Jester笑话推荐系统，有多个版本，总计约400万评分，由7.3万用户对100个笑话给出（-10到+10分）。内容仅包括用户ID、笑话ID和评分，无额外元数据。优势：小规模、简单，适合初学者测试算法；缺点：领域狭窄（仅笑话），评分主观性强。典型应用：用于矩阵分解基准，如在早期推荐研究中评估SVD；常作为教学数据集。

8. Million Song Dataset

Million Song Dataset 包含100万歌曲的元数据，包括音频特征（节奏、音高）、艺术家信息、标签和相似歌曲。内容不包括实际音频文件，但有Echo Nest API链接。优势：内容丰富，适合内容-based音乐推荐；缺点：缺乏用户交互数据，需与其他数据集结合使用。典型应用：歌曲推荐，如使用音频嵌入的深度学习模型；在音乐信息检索会议中常见。

9. MIND (Microsoft News Dataset)

MIND数据集用于新闻推荐研究，收集自Microsoft News的匿名行为日志，包括点击、印象和用户历史。规模大型（具体版本差异，如MIND-small有16万新闻），内容包括新闻ID、用户ID、点击行为、新闻元数据（如标题、摘要、类别）。优势：实时性强，包含负面样本（未点击），适合CTR预测；缺点：隐私处理导致数据不全，偏向英文新闻。典型应用：新闻推荐基准，如使用BERT处理文本；在Medium文章中作为基准数据集。

10. Epinions

Epinions数据集来自Epinions网站，包含18.1万评分、11.6万用户、4.1万物品，以及18.1万社会关系（trust links）。内容包括用户评论、价格和社会元数据。优势：整合社交网络，适合信任-based或图推荐；缺点：数据较旧（~2017前），规模中等。典型应用：社会推荐，如使用随机游走算法；在IJCAI 2017论文中用于稀疏序列推荐。

第二次

表格总结

数据集名称	描述	领域	下载链接
Steam Video Games	来自Steam平台的用户行为数据，包括购买、游玩时间和游戏标题，支持游戏推荐和行为分析。	游戏推荐	Recommender Systems Datasets
Microsoft News Dataset (MIND)	大规模新闻推荐数据集，包含匿名用户行为日志，用于新闻个性化推荐和点击预测。	新闻推荐	https://github.com/msnews/msnews.github.io
Food.com Recipes	来自Food.com的食谱细节、评论和用户互动数据，支持食谱推荐和变体匹配（如素食版本）。	食谱/餐饮推荐	Food.com Recipes and Interactions \| Kaggle
Retailrocket E-commerce	来自电商网站的真实行为数据，包括浏览、点击和购买事件，用于会话-based推荐。	电商推荐	Retailrocket recommender system dataset \| Kaggle
Yahoo! Music Ratings	来自Yahoo! Music的1000万条艺术家评分数据，用于验证协同过滤和聚类算法。	音乐推荐	https://webscope.sandbox.yahoo.com/catalog.php?datatype=r
Criteo Display Ads	来自Criteo的广告点击数据，用于CTR预测和广告推荐，包含数天内的流量日志。	广告推荐	Display Advertising Challenge \| Kaggle
Twitch Streaming	来自Twitch平台的用户观看行为数据，每10分钟记录一次，覆盖43天，用于内容消费推荐。	视频/直播推荐	Recommender Systems Datasets

数据集名称	来源	规模	主要内容	适用推荐类型
Steam Video Games	Steam平台（Valve公司），Kaggle和GitHub共享	约779万评论，256万用户，3.2万游戏	用户行为（购买、玩耍）、评论、游戏元数据、捆绑信息	协作过滤、内容推荐、序列推荐
Microsoft News Dataset (MIND)	Microsoft News网站匿名日志	100万用户，16万新闻文章，数百万行为日志	用户点击、印象日志、新闻元数据（标题、摘要、类别）	新闻推荐、点击率预测（CTR）、序列推荐
Food.com Recipes	Food.com（前身为GeniusKitchen）平台	约18万食谱，70万用户评论	食谱细节（成分、营养、步骤）、用户评分、评论文本、标签	内容推荐、协作过滤、混合推荐
Retailrocket E-commerce	Retailrocket公司（e-commerce个性化服务）	4.5个月行为数据，数百万事件（点击、加购、交易）	用户行为日志、物品属性、类别树	会话-based推荐、产品推荐、CTR预测
Yahoo! Music Ratings	Yahoo! Music社区	100万用户，60万音乐物品，2.5亿评分	用户对轨道、专辑、艺术家、流派的评分，四级层次结构	音乐推荐、层次推荐、协作过滤
Criteo Display Ads	Criteo公司（广告技术平台）	7天数据，数百万展示广告，1TB点击日志	特征值（13连续+26类别）、点击反馈	CTR预测、广告推荐、深度学习推荐
Twitch Streaming	Twitch平台（直播流媒体）	用户消耗流媒体记录，每10分钟采样streamer和聊天用户	streamer信息、用户聊天连接、互动行为	直播推荐、实时推荐、社区推荐

逐个详细分析

1. Steam Video Games

Steam Video Games数据集来源于Steam平台（Valve公司运营的领先在线游戏商店），数据通过Kaggle和GitHub等平台公开共享，常用于游戏推荐研究。该数据集规模较大，包含约4100万用户推荐（评论），涉及256万用户和3.2万游戏（一些版本扩展到7.79万评论）。内容特征包括用户ID、游戏标题、行为类型（购买、玩耍时间）、价值（如玩耍小时数）、评论文本、游戏元数据（如类型、标签、开发者）和捆绑信息（bundle）。适用推荐类型主要为协作过滤（基于用户行为矩阵）、内容推荐（利用游戏标签和描述）和序列推荐（考虑玩耍顺序和时间序列）。优势：数据真实且丰富，包含多模态信息（文本+行为），适合测试大规模算法；缺点：数据可能有噪声（如负面评论偏见），隐私匿名化导致某些特征缺失，且偏向PC游戏。典型应用：游戏平台个性化推荐，如使用矩阵分解或深度学习模型（如Graph Neural Networks）预测用户兴趣；在Kaggle竞赛中用于构建推荐引擎，推动独立游戏发现。

2. Microsoft News Dataset (MIND)

Microsoft News Dataset (MIND)来源于Microsoft News网站的匿名行为日志，是为新闻推荐基准设计的公开数据集，有多个版本（如MIND-small、MIND-large）。规模包括100万用户、16万新闻文章和数百万行为日志（MIND-large扩展到数亿印象和点击）。内容特征包括用户ID、新闻ID、点击行为（正面/负面样本）、印象日志（显示但未点击）、新闻元数据（标题、摘要、类别、实体、URL）和用户历史浏览。适用推荐类型主要为新闻推荐、点击率预测（CTR，使用深度模型如BERT）、序列推荐（基于浏览历史）。优势：包含负面样本，便于训练鲁棒模型；数据实时性强，适合冷启动问题；缺点：匿名化导致用户特征有限，偏向英文新闻，可能有地域偏差。典型应用：新闻聚合器推荐，如在Microsoft Research中使用NRMS（Neural News Recommendation with Multi-head Self-attention）模型评估；在ACL 2020论文中作为基准，推动个性化新闻系统发展。

3. Food.com Recipes

Food.com Recipes数据集来源于Food.com平台（前身为GeniusKitchen），通过Kaggle共享，常用于食品推荐研究。规模约18万食谱、70万用户互动（包括评分和评论）。内容特征包括食谱ID、名称、成分列表、营养信息（卡路里、蛋白质等）、烹饪步骤、时间/侍应信息、用户评分（1-5分）、评论文本和标签（饮食偏好如素食）。适用推荐类型主要为内容推荐（基于成分相似性）、协作过滤（用户评分矩阵）和混合推荐（结合健康因素）。优势：多维度数据（营养+文本），适合健康-aware推荐；真实用户反馈丰富；缺点：数据稀疏（许多食谱评分少），文化偏向西方饮食。典型应用：食谱App个性化建议，如使用TF-IDF或图模型预测用户偏好；在机器学习论文中用于营养平衡推荐系统，解决饮食多样性问题。

4. Retailrocket E-commerce

Retailrocket E-commerce数据集来源于Retailrocket公司（提供e-commerce个性化服务），通过Kaggle公开。规模覆盖4.5个月行为数据，约275万事件、140万用户和数千物品。内容特征包括用户ID、时间戳、事件类型（查看、加购物车、购买）、物品ID、属性（类别、价格、描述）和会话信息。适用推荐类型主要为会话-based推荐（短期行为预测）、产品推荐（协作过滤）和CTR预测（点击行为）。优势：序列数据完整，适合实时推荐；包含多种事件类型，便于多任务学习；缺点：匿名化特征有限，数据周期短可能不反映长期趋势。典型应用：在线商店推荐引擎，如使用GRU4Rec模型处理会话序列；在e-commerce研究中用于客户行为分析和转化率优化。

5. Yahoo! Music Ratings

Yahoo! Music Ratings数据集来源于Yahoo! Music社区，源于KDD Cup 2011竞赛，通过学术平台共享。规模约100万用户、60万音乐物品（轨道、专辑、艺术家、流派）和2.5亿评分。内容特征包括用户ID、物品ID、四级层次结构（轨道<专辑<艺术家<流派）、显式评分（0-100分）和时间戳。适用推荐类型主要为音乐推荐、层次推荐（多级结构）和协作过滤（基于评分矩阵）。优势：层次化数据独特，适合测试多级模型；规模大，评分细粒度；缺点：数据较旧（2011前），缺少内容特征如音频；主观评分可能有偏差。典型应用：音乐流媒体服务，如使用层次矩阵分解算法；在KDD论文中作为基准，处理稀疏性和冷启动问题。

6. Criteo Display Ads

Criteo Display Ads数据集来源于Criteo公司（广告技术平台），为CTR预测竞赛公开，有多个版本（如1TB日志）。规模覆盖7天数据、约4500万条记录（数百万展示广告）和1TB点击日志。内容特征包括13个连续特征（匿名数值如计数）、26个类别特征（匿名如用户段）、点击标签（0/1）和时间戳。适用推荐类型主要为CTR预测、广告推荐和深度学习推荐（如Wide & Deep模型）。优势：规模巨大，适合基准测试大规模算法；包含真实点击反馈；缺点：特征高度匿名化，解释性差；数据噪声高，需要大量预处理。典型应用：在线广告平台，如使用DeepFM模型预测点击率；在arXiv论文中作为CTR基准，推动特征交互学习。

7. Twitch Streaming

Twitch Streaming数据集来源于Twitch平台（亚马逊旗下的直播流媒体），通过学术数据集（如UCSD的Julian McAuley组）共享。规模包括用户消耗流媒体记录，每10分钟采样streamer和聊天用户（约数百万连接，覆盖数千streamer）。内容特征包括streamer ID、用户ID、聊天互动、观看时间、社区标签和时间序列数据（动态可用性）。适用推荐类型主要为直播推荐、实时推荐（基于当前在线）和社区推荐（图-based）。优势：动态数据捕捉实时行为，适合图神经网络；包含社交元素如聊天；缺点：数据采集周期短，隐私限制导致匿名；偏向游戏直播。典型应用：流媒体平台推荐，如使用随机游走算法预测用户偏好；在OARS工作坊中用于评估动态可用性和消费平衡。如果需要更多细节或代码示例，我可以进一步扩展。