TomatoSCI数据分析实战:探索社交媒体成瘾
今天我们尝试对一份社交媒体成瘾的调查数据进行几项简单的分析,看看可以得出哪些有意思的结论?图1A是这份数据的说明,因为篇幅太长只把部分数据贴出来(图1B)。
01 不同性别的成瘾程度会不同吗?
我们使用bootstrap方法对男生女生的成瘾分数进行了求平均,发现女生的平均值为6.515187,置信区间为[6.334350, 6.702478],女生的平均值为6.359707,置信区间为[6.204545 6.519814](图2)。从平均值来看,女生略高于男生,但是由于两者的置信区间存在重合,因此在统计学上认为不同性别的成瘾分数不存在显著的高低差异。这说明可能其实大家都爱玩手机。
02 是什么在影响成瘾程度高低?
我们把问卷中的连续变量作为自变量,社交媒体成瘾程度作为因变量,进行多元线性回归。看看哪些是显著影响成瘾程度的重要因素。结果发现(图3),模型整体拟合度极高(调整后的R²约为0.94),p值小于0.01,说明以上变量能很好地解释成瘾程度的变化。
·睡眠时间(Sleep_Hours_Per_Night)对成瘾程度有显著负向影响,系数约为 -0.21,且p值极小(< 0.001),说明睡得越少,成瘾得分越高。换句话说,睡眠不足的人更容易出现社交媒体成瘾问题。
·心理健康评分(Mental_Health_Score)同样显著且负相关,估计值约为 -0.67,表明心理健康状况越好,成瘾得分越低。心理状态不佳可能增加成瘾风险。
·社交媒体冲突(Conflicts_Over_Social_Media)则与成瘾程度呈显著正相关,估计值约为 0.67,说明经常因社交媒体产生冲突的人,成瘾风险更高。
·年龄和日均使用时长(Avg_Daily_Usage_Hours),并未显著影响成瘾程度,这意味着单纯的使用时间和年龄并非成瘾的关键因素。
03 社交媒体成瘾者的几种“画像”
这部分其实就是聚类,因为我们要追求真实性,所以要把所有变量都纳入分析,但层次聚类和K-mean聚类都是针对连续变量的,因此在这里我们使用了Gower距离 + PAM 聚类的方法,聚类前使用轮廓系数确定聚类簇数(图4A)。结果把所有受访者分为了4个群体(图4B):
类群1:重度依赖型
以年轻本科女生为主,日均使用时间最长(5.64h),多使用Instagram,普遍认为影响学业,精神状态差、冲突多、成瘾程度最高,为典型的高风险群体。
类群2:理性使用者
以年长研究生男性为主,使用时间最短(3.79h),多用 Facebook,学业影响最小,心理状态最佳、成瘾最低,是最健康节制的一群用户。
类群3:适度使用者
与类群1相似的年轻女性群体,但使用时长较短(3.83h)、影响较小、心理状态良好、成瘾程度低,表现出较好的自控力和使用节制。
类群4:隐性高风险者
研究生男性居多,使用时间高(5.44h),以 TikTok 为主,学业受影响,心理状态一般,成瘾程度高,可能为娱乐性或被动沉迷的使用者。
数据无偿分享供练习使用,只求一个小小的关注。
TomatoSCI科研数据分析平台,欢迎大家来访!