日拱一卒 | awk的基本操作
现在开一个新的专题,每天花半个小时的时间整理今天所学的内容,虽然这样的实践会有些琐碎,但是希望通过这种方式,来巩固每天所学的知识,并告诉自己每天是有积累的。
1.需求:提取列数小于4的行。
awk 'NF<4' homo.sapiens.TE.clade.filteredv3.txt >homo.sapiens.TE.clade.filteredv4.txt
NF
表示当前行的字段数量(列数)。
2. 需求:提取染色体名为chr1-22,chrX和chrY的行。
grep -E '^chr([1-9]|1[0-9]|2[0-2]|X|Y)[[:space:]]' "/home/xxzhang/Resource/Reference/GTF/TE_gtf/Re_DNA0.8_Ins.overlap.2.results" >Re_DNA0.8_Ins.overlap.2.chr1-Y.results
grep -E
其中,-E
的作用是使用正则表达式。
^chr
表示的是以chr字符开头的行。
()
的内容就是我们要匹配的内容。
[1-9]
表示的是染色体chr1-9,1[0-9]
表示的是染色体chr10-19,2[0-2]
表示的是染色体chr20-22;X
表示的是chrX,Y
表示的是chrY。
中间的|
,表示的是或的关系。
[[:space:]]
表示的是空白字符,也即后面结尾是空白字符。
3. 需求:筛选出包含多个字符(彼此是或的关系)的行。
cat "/home/xxzhang/Resource/Reference/GTF/TE_gtf/hg38_rmsk_TE_20200804.gtf" |grep "class_id \"LINE\"\|class_id \"SINE\"\|class_id \"DNA\"\|class_id \"LTR\"\|class_id \"Retroposon\"" >hg38_rmsk_TE_20200804.SINE.LINE.Retroposon.LTR.DNA.gtf
这里我学到的是,要用\"
来表示引号,以及用\|
来表示或的关系。
如果特意的要求某一列等于什么字符,需要将$2
重复写多遍,且需要将或写成||
cat homo.sapiens.TE.filteredv2.txt |awk '$2=="SINE"||$2=="LINE"||$2=="DNA"||$2=="LTR"||$2=="Retroposon"' >homo.sapiens.TE.filteredv3.txt
4.需求:用sed将多个字符替换成空。
cat "/home/xxzhang/workplace/software/FamDB-2.0.2/homo.sapiens.TE.clades.txt" |sed 's/_5end\|_3end\|_orf2//g' |sort |uniq >homo.sapiens.TE.filteredv1.txt
使用\|
表示或的关系。