当前位置: 首页 > news >正文

中国老年健康调查(CLHLS)数据挖掘教程(1)--CLHLS简介和数据下载

北京大学“中国老年健康影响因素跟踪调查(简称‘中国老年健康调查’;英文名称为Chinese Longitudinal Healthy Longevity Survey (CLHLS))”及交叉学科研究由国家自然科学基金委主任基金应急项目、重大项目、重点项目及国际合作项目。1998-2018年在全国23个省/市/自治区随机抽取大约一半县市进行八次跟踪调查,累计入户访问11.3万人次,其中最需照料的80岁及以上高龄老人占总样本67.4%,其余为较低龄老人和中年对照组;包括:2.01万人次百岁老人,2.68万人次90-99岁老人,2.93万人次80-89岁老人,2.01万人次65-79岁老人,1.12万人次35-64岁中年人;同时访问2.89万位65+岁已死亡被访老人的直接家庭成员,收集了老人死亡前健康状况、生活质量与医疗和照料需求成本等详细数据。

在这里插入图片描述

1998-2018年八次老龄健康跟踪调查累计入户访问11.3万人次,其中最需照料的80岁及以上高龄老人占总样本67.4%,其余为较低龄老人和中年对照组;同时访问2.89万位65+岁已死亡被访老人的直接家庭成员,收集了老人死亡前健康状况、生活质量与医疗和照料需求成本等详细数据。“中国老年健康调查”免费向学者们提供数据,跟踪调查数据在删除个人隐私信息后已向社会和学界免费开放,包括:存活老人生理心理健康、认知功能、社会参与、行为、饮食营养、生活习惯、社会经济状况、家庭结构、代际关系、老年家庭照料需求、照料提供和成本等非常丰富的个体微观数据、以及65+岁已死亡老人死亡前健康状况、照料成本与生活质量等丰富个体微观数据,除了为国家健康老龄化科学决策应用研究服务外,已通过北京大学开放研究数据平台(http://opendata.pku.edu.cn/)和中国人口与发展研究中心执行的“国家人口宏观管理与决策信息系统(PADIS)”和“全民健康保障信息化工程”数据库平台向学界和社会开放免费使用。
据不完全统计,截至2021年10月15日,10327位学者(不包括他们的项目组其他成员)正式注册免费使用1998-2018年“中国老年健康调查”数据; 这些学者们使用该调查数据已发表成果:专著17本;国际匿名评审SCI和SSCI学术刊物论文431篇; 国内期刊论文731篇; 通过答辩博士论文99篇和硕士论文678篇;递交政策咨询报告68篇。

在这里插入图片描述
CLHLS数据下载的网址是:

https://opendata.pku.edu.cn/dataverse/CHADS?spm=5176.28103460.0.0.40f7451e1r7NtX

数据需要先通过申请才能下载,下载到电脑的数据如下图

在这里插入图片描述
数据每个年份是分开的,以sav格式保存。中国健康长寿纵向调查(CLHLS)的有前八波(1998、2000、2002、2005、2008、2011、2014和2018)。这些受访者于1998年首次接受采访,后面是对这些患者的跟踪随访。

在编码系统中,“写入格式:F3”表示变量的代码长度为3位数字,没有小数点,而“写入格式∶F8.6”表示变量代码长度为8位数字,小数点后有6位数字。后一种格式(带小数点)用于权重。

在这里插入图片描述
数据集中,大多数变量都被视为“数字”变量,而其中一些变量则被视为字符串变量。年龄、年、月、人数和天数等变量被视为“规模”类型。剩余的大多数变量被视为“名义”变量,包括“是”或“否”二项式问题。B部分中的变量、E部分中与ADL、IADL功能能力相关的变量以及D部分中幸存的个人问卷中的一些变量被视为“顺序”变量。死者死亡前的ADL功能也被视为“序数”变量。更详细的信息可以在编码系统的“测量级别”中找到。变量名称中第一个字母为“r”的变量表示问题是由受访者亲自回答或者由代理人回答。

以“_0”、“_2”、“_5”、“_6”、”_11”、“_14”和“_18”为后缀的变量分别用于2000年、2002年、2005年、2008年、2011年、2014年和2018年仍然活着并再次接受采访的人,而以“d0”、第二年、第五年、第八年、第十一年、第十四年和第十八年为前缀的变量则分别用于1998-2000年、2000-2002年、2002-2005年、2005-2008年、2008-2011年、2011-2014年和2014-2018年调查间隔内死亡的已故受访者。

“-6”用于表示该变量仅用于在世人员,不适用于已故人员。“-7”表示该变量仅用于已故人员,不适用于幸存的受访者。“-8”用于表示受访者在早期浪潮中死亡或失访,“-9”用于定义失访。此数据集中使用“-1”表示问题不适用于受访者的情况。“9”、“99”、“999”和“9999”通常用于表示不同变量中的缺失信息,而在大多数情况下(但不是所有情况下),“8”、“88”、“888”和“8888”用于表示受访者不知道问题答案的情况。在进行分析之前,用户需要估算由“8”、“88”、“888”、“8888”、”9”、“99”、“999”和“9999”表示的缺失值,特别是当“缺失”或“不知道”的比例大于5%时。目前没有用估算值替换缺失数据的数据集。

在这里插入图片描述
最后我总结一下,CLHLS的患者年龄偏大,基本大于80岁,包含有饮食数据和生活数据,数据提取方法也和chals类似,可以看作是chals数据的一个补充,可以发一些膳食/饮食指数之类数据的文章,后续将继续进一步介绍CLHLS。

相关文章:

  • 【计算机系统结构】期末复习
  • 如何确保邮件群发不会被标记为垃圾邮件?
  • 输入法,开头输入这U I V 三个字母会不显示 任何中文
  • 深入解析 SNMP Walk 的响应机制
  • NaluCFD 介绍和使用指南
  • DAO 代码说明文档
  • 抖音AI数字人对口型软件LatentSync最新版整合包,音频驱动口型讲话
  • 前端跨域解决方案(1):什么是跨域?
  • 自主导航巡检机器人系统解决方案
  • 第17篇:数据库中间件的弹性伸缩与容量规划实战
  • 给element-plus的table表格加上连续序号
  • 20.excel制作图表,图表跟随数据行数的变化而自动更新
  • GEO指南之内容创业者:AI时代的“品牌大模型种草”与IP推荐力打造
  • 排序--计数排序
  • 无人机侦测与反制技术进展
  • 对象映射 C# 中 Mapster 和 AutoMapper 的比较
  • 【Linux】git基础操作
  • 如何在Linux命令窗口中执行MySQL脚本
  • Linux系统权限提升篇Vulnhub辅助项目SUID权限SUDO指令版本漏洞
  • Sqoop进阶之路:解锁数据迁移新姿势
  • 深圳网站建设开发公司/百度推广下载安装
  • 做公司网站员工保险/太原seo网络优化招聘网
  • 网站做图分辨率是多少/免费发布推广平台
  • 网站建设总流程/客户引流的最快方法是什么
  • 高端网站建设 骆诗/中国十大网络销售公司
  • 宜昌网站推广/百度快照优化排名