可下载或通过爬虫获取疾病相关数据的网站及平台,涵盖临床数据、基因关联、药品信息等方向,并附注数据特点与获取方式:(不公开)
一、综合性疾病数据库
-
MalaCards
- 数据内容:集成21,787种疾病的症状、基因、药物、临床试验等信息,支持罕见病和复杂疾病查询 。
- 获取方式:
- 直接访问官网 https://www.malacards.org 手动下载;
- 通过Python爬虫解析本地保存的HTML页面(需点击“Show All”获取完整数据) 。
- 注意:需处理反爬机制,建议下载本地页面后解析。
-
GeneCards Suite
- 关联数据库:包含GeneCards(基因功能)、MalaCards(疾病)、PathCards(调控网络)等,提供疾病与基因的关联分析 。
- 适用场景:研究疾病遗传机制或药物靶点。
二、医学影像与临床数据集
-
医学影像数据集集锦(GitHub)
- 数据内容:收录80+个公开医学影像数据集,涵盖肝脏、肺部等器官的CT/MRI数据,标注类型包括分割、分类等。
- 获取方式:
- 通过GitHub项目 linhandev/dataset 查看列表;
- 部分数据集提供Aistudio不限速下载链接(如LiTS、Sliver07)。
-
国家人口健康科学数据中心
- 数据内容:汇交人口健康领域的科学数据,包括疾病调查、临床记录等 。
- 获取方式:需通过官网 https://www.ncmi.cn 提交数据汇交申请或查询公开数据集。
三、药品与疾病关联数据
-
丁香园医疗数据开放平台
- 数据内容:提供药品说明书、疾病科普、医院信息等结构化数据,覆盖210万+医生用户画像 。
- 适用场景:药品研发或医保核赔等商业分析。
- 接口服务:支持通过API获取数据(需注册开发者账号) 。
-
无码科技药品数据库
- 数据内容:收录17万+药品详细信息,包括适应症、禁忌、药理毒理等。
- 获取方式:通过API查询(如“盐酸二甲双胍片”的完整说明书)。
四、健康医疗大数据平台
-
浪潮健康医疗大数据平台(HDSP 2.0)
- 数据内容:整合区域医疗数据,支持疾病分布、资源分配等分析,适用于公共卫生研究。
- 获取限制:需与平台合作(如政府或医疗机构)申请数据权限。
-
北京大学健康医疗大数据平台
- 数据内容:包含多源异构临床数据(如NCIS医疗质量数据),支持高性能计算分析 。
- 适用场景:学术研究需通过伦理审查并申请访问 。
五、其他工具与注意事项
- 爬虫技术建议:
- 针对反爬网站(如GeneCards),可优先下载本地页面再解析 ;
- 使用Python库(如BeautifulSoup)提取HTML中的表格数据 。
- 合规性:
- 遵循《人类遗传资源管理条例》等法规,避免敏感数据滥用 ;
- 商业用途需获得平台授权(如丁香园API) 。