R语言入门课| 08 变量的重编码与重命名
视频教程
大家可以先做一做R语言基础小测验,看看自己是否需要跟我们5.5h入门R语言的课程。
先上教程视频
完整视频回放和答疑服务可见:5.5h入门R语言
"R语言入门课"是我们认为生信小白入门不得不听的一个课程,我们也为这个课程准备了许多干货。R语言的精髓便是数据处理,在本节课中,我们详细介绍了向量、矩阵、数据框、数组、因子、列表的创建方法与数据访问方式,为以后的生物信息学数据处理打下牢固的基础!
本次课程代码
大家可以跟着视频练习如下代码:
##### (2) 变量的条件性重编码(修改) #####
# 操作包括:
# 1)将一个连续型变量修改为一个类别值;
# 2)将误编码的值替换为正确值;
# 3)基于一组分数线创建一个表示及格或不及格的变量。
# 重编码数据涉及到的**逻辑**运算符(逻辑运算符表达式可返回TRUE或FALSE):
#
# | 运算符 | 描述 | 运算符 | 描述 |
# |:------:|:--------:|:---------:|:---------------:|
# | \< | 小于 | != | 不等于 |
# | \<= | 小于等于 | !x | 非x |
# | \> | 大于 | x|Y | x或Y |
# | \>= | 大于等于 | x&Y | x和Y |
# | == | 严格等于 | isTRUE(x) | 测试x是否为TRUE |
1<2
c(1,2,3,4) < 2
1!=2
2<=2
3>=2
1=2
1==2
isTRUE(2>1)
leadership <- data.frame(manager=c(1,2,3,4,5),date=c("10/24/08","10/28/08","10/1/08","10/12/08","5/1/09"),country=c("US","US","UK","UK","UK"),gender=c("M","F","F","M","F"),age=c(32,45,25,39,99),q1=c(5,3,3,3,2),q2=c(4,5,5,3,2),q3=c(5,2,5,4,1),q4=c(5,5,5,NA,2),q5=c(5,5,2,NA,1))
leadership
###### 举例 ######
#语法:
# variable[condition] <- expression
#1)将示例数据框中的age变量分类为agecat(Young,Middle,Elder)
leadership$agecat[leadership$age>75] <- "Elder"
leadership$agecat[leadership$age<55] <- "Young"
leadership$agecat[leadership$age>=40&leadership$age<=60 ] <- "Middle"
leadership
#2)写法2,利用**within()**函数,它与with()函数类似,不同的是**within()允许修改数据框**
leadership <- within(leadership,{agecat <- NA agecat[age>75] <- "Elder"agecat[age>=40&age<=60] <- "Middle"agecat[age<40] <- "Young"})
leadership
##### (3) 变量的重命名 #####
###### 方法一:fix(数据框) ######
# 例如
fix(leadership)#出现一个交互式编辑器,单击变量名则可对其重命名
###### 方法二:name()函数 ######
#语法
names(leadership)
names(leadership)[2] <- "testDate"
leadership
names(leadership)[6:10] <- c("item1","item2","item3","item4","item5")
leadership
R语言入门
1、课程简介
生信基地希望能够给大家提供系统性、形成性、规范性的生信教学。前面几次活动中同学们表示希望能够有线下集中学习以及针对性的指导、答疑。所以,此次我们已推出"生信R语言入门课",分为"R介绍"、"R语言数据对象"、"基本数据管理"、"图形初级(ggplot2)"四个模块共12节课。当然,我们也不做生信快餐,本次活动回放已剪辑完毕,方便错过活动的小伙伴加入。后续我们会持续拉群在群里进行课程内容的答疑。
2、R语言介绍
R语言是一种专门为统计分析、数据可视化和计算而设计的编程语言,广泛应用于各个领域。R语言支持各种统计分析方法,如线性回归、方差分析、聚类分析等,同时也能够进行复杂的图形和数据可视化。R语言凭借其开源、免费、工具包丰富、数据处理能力强、可视化丰富的特性在生物信息学中被广泛应用。例如RNA-Seq差异分析常用的DESeq2、edgeR的引用次数多达数万次。我们制作的单细胞教程几乎也全是基于R语言环境。很多同学找我们学习单细胞的时候都表示不想学习R语言,直接学习单细胞分析,不积跬步无以至千里,这显然是不现实的,所以,欢迎大家来参加此次的课程。
资料&课表
本次课程的学习资料可以领取:
目前12节总计5.5h的视频课程回放已剪辑完毕,方便错过直播的同学随时加入学习:
除了学习视频外,还给大家准备了学习资料,包括学习手册、课后习题。大家人手一份资料可以跟着视频联系:
课程目录:
1 、R介绍
1.1 R 下载与安装
1.1.1 RStudio
1.1.2 R的帮助函数
1.1.3 用于管理R工作区的函数
1.2 包(Packages)
1.2.1 包的基本函数
1.2.2 包处理大型数据集的示例展示
2、 R语言数据对象
2.1 理解数据集
2.2 数据结构
2.2.1 向量(vector)
2.2.2 矩阵(matrix)
2.2.3 数组(array)
2.2.4 数据框(data)
2.2.5 因子(factor)
2.2.6 列表(list)
2.3 数据输入
2.3.1 从带分隔符的文本文件导入数据
2.3.2 导入Excel数据
3、基本数据管理
3.1 创建新变量
3.2 变量的重编码(recoding)
3.3 变量的重命名
3.4.缺失值(NA)
3.5 类型判断和转换
3.6 数据排序
3.7 数据集的合并
3.8 选取变量
3.9 选取观测值
3.10 subset()函数选择观测值或变量
3.11 剔除变量
3.12 dplyr包
3.13 使用管道操作符对语句进行串接
4、图形初级(ggplot2)
4.1 使用ggplot2包创建图形
4.1.1 函数ggplot2()
4.1.2 geom()函数
4.1.3 分组
4.1.4 标尺
4.1.5 刻面
4.1.6 标签
4.1.7主题
4.2 ggplot2包的详细信息
4.2.1 放置数据和映射选项
4.2.2 将图形作为对象使用
4.2.3 保存图形