保姆级CHARLS数据库使用教程
一、CHARLS是什么?
CHARLS是由北京大学国家发展研究院主持的大规模跨学科调查项目,旨在收集中国中老年家庭和个人的高质量微观数据。它被广泛用于经济学、社会学、公共卫生、老年学等领域的学术研究。
核心特点
-
覆盖城乡,样本量大,可进行有统计效力的亚组分析(如城乡差异、性别差异)。
-
时间跨度从2011年基线调查开始,2013 年、2015 年、2018 年和 2020 年分别开展了 4 轮常规问卷的追踪调查
-
数据涵盖个人基本信息、家庭结构、健康状况、医疗服务利用、医疗保险、工作退休与养老金、收入消费资产等众多模块。
有哪些类目
-
调查对象:中国45岁及以上的中老年居民及其配偶。
-
调查范围:覆盖全国28个省(自治区、直辖市),具有全国代表性。
-
调查内容:
基本信息:人口学特征、家庭结构。
健康状况:身体健康、心理健康、认知能力、躯体功能、医疗服务利用。
经济状况:收入、消费、资产、负债、养老金。
就业与社会保障:工作史、退休情况、各类保险。
-
调查年份:
全国基线调查:2011年(约1.7万户,1万人)
追踪调查:2013, 2014(生命历程调查), 2015, 2018, 2020(疫情 期间电话调查)等多次追访。
二、 如何使用CHARLS数据库?
访问官网:
CHARLS 官方主页http://charls.pku.edu.cn
英文版入口为 http://charls.pmu.edu.cn/en

注册账户:
点击页面中的“数据用户注册”(或“Register”)按钮,
填写姓名、所属机构(学校或研究单位)、电子邮箱等信息。
建议使用机构邮箱(如edu.cn 后缀)或常用的个人邮箱,以便及时接收审核结果。
注册前请认真阅读并同意《数据使用协议》,该协议要求使用者承诺不将数据用于商业目的、不尝试识别受访者身份,并在发表研究成果时标注数据来源。
登录账号后,进入数据申请页面,填写以下研究信息:
- 1.研究标题
- 2.研究背景与目的
- 3.拟使用的 CHARLS 数据年份及变量(例如:2015 和 2018 年 wave 中的健康、经济模块)
- 4.拟采用的分析方法(如描述性统计、回归分析等)
申请内容应简明、真实,体现明确的学术用途。提交后,CHARLS 团队会在 1–3 个工作日通过邮件通知审核结果。
获取数据与资料:
申请通过后,重新登录网站,进入“数据下载”区域,可按需选择以下内容:
- 1.数据文件:STATA(.dta)、SAS 或 SPSS 格式
- 2.调查问卷:用于理解变量定义与问题设置
- 3.用户手册:涵盖抽样方法、权重使用、数据处理等重要说明
- 4.变量编码手册:列明变量名称、问题描述与取值标签
CHARLS 数据按调查年份组织,如 2011年基线调查,2013、2015、2018年追访
数据处理与分析:
此阶段涉及具体的技术操作,常用软件有Stata、R、Python 或 SAS。
-
变量查看:使用 Stata 中的 describe、codebook等命令查看变量标签,结合问卷理解变量含义
-
缺失值处理:根据研究方法对缺失值进行删除或插补等处理
-
变量生成:基于原始变量构建新指标(如 BMI、收入分级等)
-
数据结构识别:CHARLS 包含家庭与个人两个层面的数据文件,需根据研究问题选择使用或进行合并
-
数据合并:如涉及多年份数据或家庭—个人数据关联,需使用 merge 类命令进行横向或纵向合并
