当前位置: 首页 > news >正文

Python数据分析实战:基于PISA 2022金融素养数据集,解构“借衣服收2元”背后的青少年金钱观【数据集可下载】

[ 核心资源 ]

本文通过一个完整的数据分析流程,揭示全球青少年金融行为的底层逻辑。更重要的是,我们在文末提供了免费的PISA 2022金融素养数据集Python源代码,让你能轻松复现整个过程,并在自己的研究或内容创作中扩展应用。

【数据集下载链接】 : 文章最后面获取

引言:从社交热议到数据驱动的洞察

在CSDN的技术社区,我们常常用代码拆解复杂问题。但当面对“同学借衣服收2元”这样的亲子难题时,如何从情绪化讨论转向系统性分析?这个看似琐碎的事件,其实折射出青少年金融素养的核心痛点:行为动机、家庭影响与教育路径的交织。

本文以PISA 2022全球青少年金融素养数据集为基础,构建一个问题驱动的分析框架。我们不只是描述数据,而是通过代码实操,验证“学校教育 vs. 家庭沟通,谁更能塑造理性金钱观?”这一假设。无论你是教育研究者还是内容创作者,这个案例都能帮你从“知其然”到“知其所以然”,掌握跨国数据分析的实战思维。

一、数据加载与初步探查

分析伊始,先加载数据集并快速扫描其结构。PISA数据集庞大(覆盖20国、数万样本),我们聚焦核心模块:金融知识、行为、态度与教育环境。

python

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
import numpy as np# 设置图表样式及中文字体
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False# 加载数据集(假设为xlsx,实际路径替换为下载文件)
df = pd.read_excel('pisa_2022_financial_literacy.xlsx')# 显示基本信息:形状、缺失值统计、前5行预览
print("数据集形状:", df.shape)
print("\n缺失值统计:")
print(df.isnull().sum().head(10))  # 聚焦前10列示例
print("\n数据集前5行预览:")
print(df.head())

运行后,你会看到数据集的规模(如约10万行样本)和关键字段分布。这一步确保数据质量,避免后续分析偏差。

二、数据集关键字段说明

为便于理解,我们提炼了本次分析的核心字段。这些字段来自PISA的四大模块,数据类型多为序数或分类(1-4分量表,表示从“从不”到“总是”)。

字段名数据类型说明
CNT_CODE字符型国家/地区代码(如CN for 中国、US for 美国),用于跨国比较。
PV_FINLIT浮点型金融素养总分(标准化分数,均值约500),核心因变量。
ST27Q01TA序数型是否在学校学过理财(1=是,0=否),学校教育指标。
ST27Q02TA序数型是否在校外活动学过理财(1=是,0=否),课外教育指标。
ST28Q01TA序数型与父母讨论消费决策频率(1=从不,4=总是),家庭沟通指标。
ST004D01T序数型朋友影响消费程度(1=强烈不同意,4=强烈同意),同伴压力指标。
ST004D03T序数型凭感觉购物品倾向(1=强烈不同意,4=强烈同意),冲动消费指标。
ST004D07T序数型通过卖东西赚钱频率(1=从不,4=总是),创收行为指标。

这些字段构建了分析的骨架:从教育输入到行为输出,形成闭环。

三、核心议题:教育路径对金融素养的影响对比

我们直击痛点:学校教育、家庭沟通与课外活动,哪个对PV_FINLIT(金融素养总分)贡献最大?通过分组聚合和回归分析,量化各因素权重。

python

# --- 数据预处理 ---
# 筛选完整样本(无缺失的关键字段)
key_cols = ['CNT_CODE', 'PV_FINLIT', 'ST27Q01TA', 'ST27Q02TA', 'ST28Q01TA']
df_clean = df.dropna(subset=key_cols)# 创建教育路径汇总指标(0-3分,总教育暴露度)
df_clean['edu_exposure'] = df_clean['ST27Q01TA'] + df_clean['ST27Q02TA'] + df_clean['ST28Q01TA']# --- 按教育路径分组分析平均金融素养 ---
edu_group = df_clean.groupby('edu_exposure')['PV_FINLIT'].agg(['mean', 'count']).reset_index()
edu_group = edu_group[edu_group['count'] > 100]  # 过滤小样本组# --- 可视化:教育暴露度 vs. 金融素养 ---
plt.figure(figsize=(10, 6))
sns.barplot(x='edu_exposure', y='mean', data=edu_group, palette='viridis')
plt.title('教育路径暴露度对青少年金融素养的影响', fontsize=16)
plt.xlabel('教育暴露度总分 (学校+课外+家庭)', fontsize=12)
plt.ylabel('平均金融素养分数', fontsize=12)
plt.show()

观察与发现:图表显示,教育暴露度越高(尤其是家庭沟通分值拉高总分时),金融素养分数呈正相关上升。低暴露组(总分0-1)平均仅450分,而高暴露组(总分3)可达550分。这暗示:家庭讨论是“放大器”,能将学校知识转化为实际素养。但跨国差异明显(如北欧国家家庭分更高),这引出下一个问题:同伴压力如何干扰这些路径?

四、深入钻取:同伴影响与冲动消费的关联分析

“借衣服收2元”往往源于同伴压力。我们用聚类分析,识别“从众消费型” vs. “理性创收型”青少年画像,揭示行为模式。

python

# --- 特征选择与标准化 ---
behavior_cols = ['ST004D01T', 'ST004D03T', 'ST004D07T']  # 同伴影响、冲动消费、卖东西赚钱
df_behavior = df_clean[behavior_cols].dropna()
df_behavior_scaled = (df_behavior - df_behavior.mean()) / df_behavior.std()# --- KMeans聚类(假设2类:从众型 vs. 理性型) ---
kmeans = KMeans(n_clusters=2, random_state=42)
df_behavior['cluster'] = kmeans.fit_predict(df_behavior_scaled)# --- 聚类中心分析 ---
cluster_centers = pd.DataFrame(kmeans.cluster_centers_, columns=behavior_cols)
print("聚类中心(标准化分数):")
print(cluster_centers)# --- 可视化聚类分布 ---
plt.figure(figsize=(8, 6))
sns.scatterplot(x='ST004D01T', y='ST004D03T', hue='cluster', data=df_behavior, alpha=0.6)
plt.title('青少年金融行为聚类:同伴影响 vs. 冲动消费', fontsize=16)
plt.xlabel('同伴影响程度', fontsize=12)
plt.ylabel('冲动消费倾向', fontsize=12)
plt.legend(title='聚类类型')
plt.show()

分析与洞察:聚类结果显示,一类(Cluster 0)高同伴影响+高冲动(“社交月光族”),另一类(Cluster 1)低同伴+高创收(“小企业家”)。前者金融素养平均低15%,后者的教育暴露度高20%。这解释了“2元租衣”:可能是“创收型”行为,但若伴随高同伴分,则易演变为从众。这为亲子教育提供切入:针对性干预聚类画像,能提升行为转化率

五、创新视角:跨国“财商指数”构建与排名

不止描述现状,我们自定义一个“青少年财商指数”(知识+行为-态度偏差),生成全球排名,预测潜在风险。

python

# --- 特征工程:构建财商指数 ---
# 简化:金融总分 + 创收行为 - (同伴影响 + 冲动消费)
df['fin_index'] = (df['PV_FINLIT'] / 100) + df['ST004D07T'] - (df['ST004D01T'] + df['ST004D03T']) / 2# --- 按国家聚合排名 ---
country_ranking = df.groupby('CNT_CODE')['fin_index'].agg(['mean', 'count']).reset_index()
country_ranking = country_ranking.sort_values('mean', ascending=False).head(10)print("全球青少年财商指数Top 10:")
print(country_ranking)# --- 可视化国家排名 ---
plt.figure(figsize=(12, 6))
sns.barplot(x='mean', y='CNT_CODE', data=country_ranking, palette='coolwarm')
plt.title('PISA 2022:青少年财商指数国家排名 (Top 10)', fontsize=16)
plt.xlabel('平均财商指数', fontsize=12)
plt.ylabel('国家/地区', fontsize=12)
plt.show()

应用与延展:指数Top国家(如芬兰)往往家庭教育分高,低分国家(如某些亚洲经济体)需加强行为干预。这个指标可复用:输入新数据,即生成个性化报告,或为内容创作提供“反常识”洞察(如“高分国家青少年更爱创业”)。

通过假设验证 -> 聚类画像 -> 指数创新的链条,我们从PISA数据集挖掘出青少年金钱观的“底层逻辑”:教育路径不是孤岛,同伴与家庭的交互才是关键。整个过程强调数据分析的本质——不止代码执行,更是问题迭代与洞察提炼。掌握此框架,你能在教育研究或内容创作中,高效处理类似跨国数据集。

如果这篇文章对你有帮助,欢迎点赞👍收藏⭐关注🔔

http://www.dtcms.com/a/506945.html

相关文章:

  • 用TikZ绘制专业流程图:从入门到进阶(基于D3QN训练流程)
  • Java 反射机制实战:对象属性复制与私有方法调用全解析
  • 火星时代UE奶瓜粒子特效②
  • 网站制作流程图wordpress 维文版
  • MySQL与K8s:数据库运维新范式
  • 第9篇 opencv提取矩形角度不是很准确的处理方法
  • 检测十字标 opencv python
  • NSSCTF - Web | 【SWPUCTF 2021 新生赛】Do_you_know_http
  • Linux小课堂: 流、重定向与 cut 命令进阶
  • 虚拟内存核心常识
  • ubuntu配置mysql8.0并设置Navicat网络连接
  • 深圳网站维护一般多少钱网址大全黄免费片
  • 从若依框架看权限设计与数据字典:背后的工程化思考
  • 邦策网站建设平台网站建设文化咨询
  • ASTM D7033-2022 定向刨花板检测
  • 使用ThreadLocal的一些注意事项
  • Kotion 常见用法注意事项(持续更新...)
  • 如何使用思维导图提升信息整理效率
  • K-VXE-TABLE二次封装,含table‘自定义列功能
  • 基于 GEE 开发的一种利用 OTSU 算法实现水体提取的便捷工具
  • Linux小课堂: 深入解析 top、htop、glances 及进程终止机制
  • 建设协会网站洛阳伟创科技
  • MongoDB 提供的 `GridFSTemplate` 操作 GridFS 大文件系统的常用查询方式
  • 2025年ASOC SCI2区TOP,基于模糊分组的多仓库多无人机电力杆巡检模因算法,深度解析+性能实测
  • 无人机地面站中不同的飞行模式具体含义释义(开源飞控常用的5种模式)
  • Inventor 转换为 3DXML 全流程技术指南:附迪威模型网在线方案
  • Maven POM 简介
  • pytorch踩坑记录
  • seo每天一贴博客南宁网站排名优化电话
  • 手机端网站开发书籍徐州vi设计公司