2025五一杯数学建模C题:社交媒体平台用户分析问题,完整第一问模型与求解+代码
完整代码模型请见文末名片
• 问题1分析:
– 来龙去脉和与其他问题的内在联系:
• 来龙去脉:社交媒体平台为了评估博主的价值,合理分配资源和优化内容推荐,需要准确预测博主的新增关注数。新增关注数是衡量博主影响力和吸引力的重要指标,通过对历史互动数据的分析可以挖掘出相关规律,从而进行预测。
• 与其他问题的内在联系:问题1是整个问题体系的宏观入口,其结果为问题2提供了“博主关注转化率”“影响力权重”等关键特征,用于辅助判断用户对新互动博主的关注可能性;同时也为问题3和问题4中平台制定推荐策略提供了博主价值的参考。
– 从多角度详细叙述解答思路:
• 影响因素:
– 互动滞后效应:用户的关注行为通常不是即时产生的,可能在多次观看、点赞、评论后才会决定关注博主。例如,用户可能在连续3天点赞某博主的内容后才会关注该博主。
– 冷启动博主:新博主由于历史关注数据较少,难以直接进行预测。需要通过同类博主(如内容类型相同、粉丝量区间相近)的平均转化率来估算其基础关注数。
– 周期性与趋势性:博主的关注数可能受到多种周期性因素的影响,如周末效应(周末用户活跃度更高)、博主内容更新频率(如每日18点更新)等。同时,关注数也可能呈现出持续增长或衰减的趋势。
• 理论基础:
– 时间序列分析(Prophet):Prophet模型可以捕捉博主关注数的周期性(如周周期)和趋势性(如持续增长或衰减),通过对历史数据的拟合,预测未来的关注数。
– 机器学习回归(XGBoost):XGBoost模型可以融合多源特征(如互动量、转化率、滞后特征等),捕捉特征之间的非线性关系,提高预测的准确性。
• 核心变量:
– 历史关注数:作为目标变量,用于模型的训练和预测。
– 日均互动量:包括观看、点赞、评论的日均数量,反映了博主内容的受欢迎程度。
– 互动滞后特征:如前3天的点赞数、评论数等,用于捕捉互动行为的滞后效应。
– 交叉特征:如点赞 - 关注转化率(关注数/总点赞数)、评论 - 关注转化率等,反映了不同互动行为与关注行为之间的关系。
– 同类博主平均转化率:用于冷启动博主的预测,通过对比同类博主的互动转化率来估算基础关注数。
• 约束条件:
– 数据时间范围为2024.7.11 - 2024.7.20,需覆盖至少10天历史数据以捕捉周期。
– 冷启动博主需定义“同类”标准,如内容类型、粉丝量区间等。
• 模型构建:
– 特征工程:
• 基础特征:包括博主ID、内容类型(科技、娱乐等)、历史7天日均关注数等,用于区分不同博主和反映博主的基本情况。
• 时序特征:通过滑动窗口统计过去3天关注数的均值、标准差等,以及滞后特征(前1天、前3天的点赞数等),捕捉关注数的变化趋势和互动行为的滞后效应。
• 交叉特征:计算互动 - 关注转化率(如评论数/关注数)、同类博主平均转化率等,挖掘不同特征之间的关系。
– 模型融合:Prophet模型预测关注数的趋势分量,占比60%;XGBoost模型预测残差,占比40%。通过加权融合两个模型的预测结果,提升预测精度。公式表示为:
添加图片注释,不超过 140 字(可选)
。
• 模型求解:
– 数据预处理:按博主ID聚合互动行为,去重(同一用户多次观看同一内容仅计1次),构建时间序列(每日关注数)。
– 特征构建:提取上述基础、时序、交叉特征。
– 模型训练:用2024.7.11 - 2024.7.19数据训练,2024.7.20数据验证,调整融合权重。
– 预测与筛选:预测2024.7.21关注数,取新增关注数最多的5位博主及其对应数量填入表1。
– 解答过程的注意事项:
• 在数据预处理阶段,要确保数据的准确性和完整性,去除重复记录和错误数据。
• 对于冷启动博主,“同类”标准的定义要合理,避免因标准不合理导致预测结果偏差较大。
• 在模型训练和验证过程中,要注意调整模型的参数,避免过拟合或欠拟合。
• 模型融合时,权重的分配要根据实际情况进行调整,以达到最佳的预测效果。
– 总结:
• 问题1的核心是通过对历史互动数据的分析和建模,预测各博主在2024.7.21当天新增的关注数。首先对数据进行预处理和特征工程,提取反映博主吸引力和关注趋势的特征。然后选择Prophet和XGBoost模型进行训练和预测,并将两个模型的结果进行融合。最后根据预测结果选取新增关注数最多的5位博主及其对应数量填入表1。
TFT是基于Transformer的时间序列预测模型,它能够通过多头注意力机制识别关键时间步,利用门控机制过滤无关特征,从而同时捕捉长期依赖、短期周期性和特征重要性。在本问题中,该算法能自动学习博主关注数的周期模式(如周末效应)与突发性增长,加入博主类别嵌入(如科技/娱乐)作为静态特征后,能更好适应社交媒体平台博主数据特点,提高预测准确性。
多角度梳理问题
• 数据分析:问题一旨在基于2024.7.11 - 2024.7.20期间附件1的用户与博主历史交互数据,预测2024.7.21各博主新增关注数。这些数据包含用户ID、用户行为(观看、点赞、评论、关注)、博主ID及时间,通过按博主ID聚合互动行为并去重,构建时间序列,统计不同博主的历史关注数、互动行为频率及时间分布,为预测提供基础。
• 影响因素
– 互动滞后效应:用户通常不会即时关注博主,往往在多次观看、点赞、评论后才会关注,例如可能连续3天点赞某博主内容后才关注,这表明前置互动行为对关注行为存在滞后影响。
– 冷启动博主:新博主因历史关注数据少难以直接预测,需借助同类博主(内容类型相同、粉丝量区间相近)的平均转化率估算其基础关注数。
– 周期性与趋势性:博主关注数受多种周期性因素影响,如周末用户活跃度高,关注数可能增长;同时也可能因内容质量变化等呈现持续增长或衰减趋势。
• 约束条件
– 数据时间范围:数据时间范围限定在2024.7.11 - 2024.7.20,需覆盖至少10天历史数据以捕捉可能存在的周期规律。
– 冷启动博主同类标准:冷启动博主需定义“同类”标准,如内容类型、粉丝量区间等,以便准确估算其关注数。
• 潜在假设
– 用户行为一致性:假设在分析时间段内,用户对不同博主的行为模式具有相对一致性,不会出现突然且无规律的行为变化,这样基于历史行为的分析和预测才有意义。
– 平台环境稳定性:假设平台的推荐机制、用户群体特征等外部环境在分析时间段内相对稳定,不会出现重大变革影响用户与博主的互动关系,否则历史数据的参考价值会大打折扣。
模型假设及假设的依据
• 用户行为滞后性:依据实际社交媒体使用习惯,用户通常不会在初次接触博主内容就立即关注,而是经过多次互动,如观看、点赞、评论后,才会决定是否关注,所以假设用户的关注行为由前置互动行为触发且存在滞后效应,这有助于准确捕捉用户关注行为的触发机制,使模型更贴合实际情况。
• 博主关注数周期性:在社交媒体平台中,用户的活跃程度往往呈现出一定的周期性,例如周末用户有更多闲暇时间使用平台,活跃度更高,从而可能导致博主的关注数在周末增长,所以假设博主的新增关注数存在周周期特征,符合社交媒体用户行为的一般规律,能有效利用这种周期性进行预测。
• 博主关注数趋势性:博主的内容质量、运营策略等因素会随时间变化,若内容质量持续提升或运营策略得当,可能吸引更多用户关注,导致关注数持续增长;反之则可能衰减,因此假设博主的新增关注数可能呈现持续增长或衰减的趋势,使模型能够适应博主发展的不同阶段和变化。
• 冷启动博主可类比性:新博主由于历史数据有限,难以直接通过自身数据进行准确预测。但同类博主(内容类型、粉丝量相近)在受众群体、内容吸引力等方面具有相似性,其关注转化率也可能相近,所以假设冷启动博主的关注数可通过同类博主的平均转化率估算,为冷启动博主的预测提供了一种可行的方法。
• 数据完整性:在进行数据分析和模型训练时,需要可靠的数据基础。假设附件1中2024.7.11 - 2024.7.20的互动数据无缺失或错误(已通过数据清洗处理),保证了基于这些数据进行的统计分析和模型训练的准确性和可靠性。
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
完整请看主页
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)