当前位置: 首页 > news >正文

用R获取 芯片探针与基因的对应关关系 bioconductor的包的 三者对应关系

现有的基因芯片种类不要太多了!

转载自 http://www.bio-info-trainee.com/1399.html

library(hgu95av2.db)
ls("package:hugene10sttranscriptcluster.db")
ids=toTable(hgu95av2SYMBOL) 
length(unique(ids$symbol)) 
tail(sort(table(ids$symbol))) 
table(sort(table(ids$symbol)))
plot(table(sort(table(ids$symbol))))

但是重要而且常用的芯片并不多!
一般分析芯片数据都需要把探针的ID切换成基因的ID,我一般喜欢用基因的entrez ID。
一般有三种方法可以得到芯片探针与gene的对应关系。
金标准当然是去基因芯片的厂商的官网直接去下载啦!!!
一种是直接用bioconductor的包
一种是从NCBI里面下载文件来解析好!
首先,我们说官网,肯定可以找到,不然这种芯片出来就没有意义了!
然后,我们看看NCBI下载的,会比较大
http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL6947
这两种方法都比较麻烦,需要一个个的来!
所以我接下来要讲的是用R的bioconductor包来批量得到芯片探针与gene的对应关系!
一般重要的芯片在R的bioconductor里面都是有包的,用一个R包可以批量获取有注释信息的芯片平台,我选取了常见的物种,如下:
gpl organism bioc_package
1 GPL32 Mus musculus mgu74a
2 GPL33 Mus musculus mgu74b
3 GPL34 Mus musculus mgu74c
6 GPL74 Homo sapiens hcg110
7 GPL75 Mus musculus mu11ksuba
8 GPL76 Mus musculus mu11ksubb
9 GPL77 Mus musculus mu19ksuba
10 GPL78 Mus musculus mu19ksubb
11 GPL79 Mus musculus mu19ksubc
12 GPL80 Homo sapiens hu6800
13 GPL81 Mus musculus mgu74av2
14 GPL82 Mus musculus mgu74bv2
15 GPL83 Mus musculus mgu74cv2
16 GPL85 Rattus norvegicus rgu34a
17 GPL86 Rattus norvegicus rgu34b
18 GPL87 Rattus norvegicus rgu34c
19 GPL88 Rattus norvegicus rnu34
20 GPL89 Rattus norvegicus rtu34
22 GPL91 Homo sapiens hgu95av2
23 GPL92 Homo sapiens hgu95b
24 GPL93 Homo sapiens hgu95c
25 GPL94 Homo sapiens hgu95d
26 GPL95 Homo sapiens hgu95e
27 GPL96 Homo sapiens hgu133a
28 GPL97 Homo sapiens hgu133b
29 GPL98 Homo sapiens hu35ksuba
30 GPL99 Homo sapiens hu35ksubb
31 GPL100 Homo sapiens hu35ksubc
32 GPL101 Homo sapiens hu35ksubd
36 GPL201 Homo sapiens hgfocus
37 GPL339 Mus musculus moe430a
38 GPL340 Mus musculus mouse4302
39 GPL341 Rattus norvegicus rae230a
40 GPL342 Rattus norvegicus rae230b
41 GPL570 Homo sapiens hgu133plus2
42 GPL571 Homo sapiens hgu133a2
43 GPL886 Homo sapiens hgug4111a
44 GPL887 Homo sapiens hgug4110b
45 GPL1261 Mus musculus mouse430a2
49 GPL1352 Homo sapiens u133x3p
50 GPL1355 Rattus norvegicus rat2302
51 GPL1708 Homo sapiens hgug4112a
54 GPL2891 Homo sapiens h20kcod
55 GPL2898 Rattus norvegicus adme16cod
60 GPL3921 Homo sapiens hthgu133a
63 GPL4191 Homo sapiens h10kcod
64 GPL5689 Homo sapiens hgug4100a
65 GPL6097 Homo sapiens illuminaHumanv1
66 GPL6102 Homo sapiens illuminaHumanv2
67 GPL6244 Homo sapiens hugene10sttranscriptcluster
68 GPL6947 Homo sapiens illuminaHumanv3
69 GPL8300 Homo sapiens hgu95av2
70 GPL8490 Homo sapiens IlluminaHumanMethylation27k
71 GPL10558 Homo sapiens illuminaHumanv4
72 GPL11532 Homo sapiens hugene11sttranscriptcluster
73 GPL13497 Homo sapiens HsAgilentDesign026652
74 GPL13534 Homo sapiens IlluminaHumanMethylation450k
75 GPL13667 Homo sapiens hgu219
76 GPL15380 Homo sapiens GGHumanMethCancerPanelv1
77 GPL15396 Homo sapiens hthgu133b
78 GPL17897 Homo sapiens hthgu133a
这些包首先需要都下载
gpl_info=read.csv(“GPL_info.csv”,stringsAsFactors = F)

first download all of the annotation packages from bioconductor

for (i in 1:nrow(gpl_info)){
print(i)
platform=gpl_info[i,4]
platform=gsub(‘^ ‘,“”,platform) ##主要是因为我处理包的字符串前面有空格
#platformDB=‘hgu95av2.db’
platformDB=paste(platform,“.db”,sep=“”)
if( platformDB %in% rownames(installed.packages()) == FALSE) {
BiocInstaller::biocLite(platformDB)
#source(“http://bioconductor.org/biocLite.R”);
#biocLite(platformDB )
}
}
下载完了所有的包, 就可以进行批量导出芯片探针与gene的对应关系!
for (i in 1:nrow(gpl_info)){
print(i)
platform=gpl_info[i,4]
platform=gsub(’^ ‘,“”,platform)
#platformDB=‘hgu95av2.db’
platformDB=paste(platform,“.db”,sep=“”)
if( platformDB %in% rownames(installed.packages()) != FALSE) {
library(platformDB,character.only = T)
#tmp=paste(‘head(mappedkeys(’,platform,‘ENTREZID))’,sep=’’)
#eval(parse(text = tmp))
###重点在这里,把字符串当做命令运行
all_probe=eval(parse(text = paste(‘mappedkeys(’,platform,‘ENTREZID)’,sep=‘’)))
EGID <- as.numeric(lookUp(all_probe, platformDB, “ENTREZID”))
##自己把内容写出来即可
}
}
参考:http://blog.sina.com.cn/s/blog_62b37bfe0101jbuq.html


文章转载自:

http://sUtzFGbm.bscsp.cn
http://UE1zoR7H.bscsp.cn
http://xi1kfHuh.bscsp.cn
http://pW6hpJ9b.bscsp.cn
http://NAIPi2hN.bscsp.cn
http://2gzxNluo.bscsp.cn
http://6VwWkQRw.bscsp.cn
http://2vyNGpql.bscsp.cn
http://g7RrLXFm.bscsp.cn
http://ByA5PkWR.bscsp.cn
http://L7zudqNf.bscsp.cn
http://j2H1nlA5.bscsp.cn
http://5zSajKUV.bscsp.cn
http://6OgrBQgj.bscsp.cn
http://K2I13xRY.bscsp.cn
http://ZkEBdUEp.bscsp.cn
http://Qj3tJujJ.bscsp.cn
http://l0DDIMNz.bscsp.cn
http://D31xEjJp.bscsp.cn
http://feEKyoPE.bscsp.cn
http://udLFga4B.bscsp.cn
http://xnoyiM1Y.bscsp.cn
http://EukrnkYF.bscsp.cn
http://Y63iuBvh.bscsp.cn
http://5bIWR7VN.bscsp.cn
http://06mqj40D.bscsp.cn
http://nPeK2kNb.bscsp.cn
http://Ay3CRrpA.bscsp.cn
http://ci2d7muP.bscsp.cn
http://O60UwDY6.bscsp.cn
http://www.dtcms.com/a/382106.html

相关文章:

  • xxl-job的使用
  • 2025 年 9 月 12 日科技前沿动态全览
  • 高德地图自定义 Marker:点击 悬停 显示信息框InfoWindow实战(Vue + AMap 2.0)
  • 猿辅导Java后台开发面试题及参考答案
  • 启动项目提示:org.springframework.context.annotation不存在问题
  • 从零开始的指针(3)
  • “移动零”思路与题解
  • 大模型训练框架:Swift 框架
  • [笔记] 来到了kernel 5.14
  • 【算法笔记】快速排序算法
  • 数据结构——顺序表(c语言笔记)
  • Java 黑马程序员学习笔记(进阶篇6)
  • Day04 前缀和差分 1109. 航班预订统计 、304. 二维区域和检索 - 矩阵不可变
  • Java 类加载与对象内存分配机制详解
  • 【数据结构——图与邻接矩阵】
  • 再次深入学习深度学习|花书笔记1
  • 信息检索、推荐系统模型排序质量指标:AP@K和MAP@K
  • 详解 OpenCV 形态学操作:从基础到实战(腐蚀、膨胀、开运算、闭运算、梯度、顶帽与黑帽)
  • 《2025年AI产业发展十大趋势报告》五十五
  • 【面试题】RAG优化策略
  • 06 一些常用的概念及符号
  • Oracle事件10200与10201解析:数据库读一致性CR与Undo应用
  • 新手向:C语言、Java、Python 的选择与未来指南
  • 【人工智能通识专栏】第十四讲:语音交互
  • 3.RocketMQ核心源码解读
  • 微信小程序开发教程(十一)
  • [硬件电路-194]:NPN三极管、MOS-N, IGBT比较
  • 零基础学AI大模型之AI大模型常见概念
  • [Dify] 插件节点用法详解:如何将插件整合进工作流
  • 2025年数字公共治理专业重点学什么内容?(详细指南)