Python:批量下载已知gene symbol蛋白的PDB文件
文章目录
-
- 一、背景介绍
- 二、代码实现
-
- 1. 依赖模块
- 2. 主要功能模块
-
- (1) 查询 UniProt ID
- (2) 查询 PDB 条目
- (3) 批量下载结构文件
- (4) 文件重命名
- 3. 主流程
- 4. 完整代码
- 三、示例运行
- 四、总结
-
- 优点
- 潜在改进
一、背景介绍
在生物信息学研究中,蛋白质结构数据是研究分子功能的关键资源。许多结构数据存储于 RCSB PDB 数据库中,而这些结构往往通过特定蛋白质的 UniProt ID 或基因标识符(如 symbol)进行检索。
然而,研究人员常常需要批量获取某些蛋白质的结构文件(如 .pdb 或 .cif 格式),手动下载不仅费时,还存在重复性劳动。为此,本文展示了一段 Python 脚本,能够自动化完成以下任务:
- 根据 蛋白质基因 symbol 获取对应的 UniProt ID;
- 检索蛋白质对应的 PDB 条目;
- 通过 Bash 脚本批量下载结构;
- 自动重命名文件以便后续分析。
二、代码实现
以下是完整的 Python 脚本,包含所有功能模块:
1. 依赖模块
脚本依赖以下 Python 库:
requests:用于调用 UniProt 和 PDB 的 RESTful API;subprocess:用于调用外部 Bash 脚本;os和time:用于文件操作和任务调度。
此外,需要准备一个 Ba
