数据分析—Excel数据清洗函数
在做数据分析的过程中,我们从数据库或者网页中获取的外部数据,通常是无法直接使用进行数据分析的。数据经常会有尾随的空格、奇奇怪怪的前缀和非打印字符等等问题,那么我们就需要先对数据进行清洗。下面介绍一些在数据清洗过程中常用的Excel函数集合~
一、删除不需要字符的函数
1、TRIM、LTRIM、RTRIM函数
在做数据清洗时,经常需要去除数据两端的空格,那么TRIM、LTRIM、RTRIM这3个函数就可以帮到你啦~TRIM函数:主要是用来去除单元格内容前后的空格,但不会去除字符之间的空格。
表达式:=TRIM(文本)
例子:去除单元格A1字符串前后的空格
ps. LTRIM、RTRIM与TRIM函数的使用方法一样~LTRIM函数用来去除单元格内容左边的空格,RTRIM函数:用来去除单元格内容右边的空格。
2、CLEAN函数
CLEAN函数可以删除数据中的非打印字符 。
表达式为:=CLEAN(文本)
例子:通过CLEAN函数去除换行符
二、获取字符串
1、LEFT、RIGHT函数
LEFT函数可以从左侧获取指定数目的字符串。
表达式:=LEFT(文本, 个数)
例子:通过LEFT函数获取字符串前4个字符
ps. RIGHT函数的使用方法与LEFT差不多,是从右侧开始提取
2、MID函数
MID函数主要作用是提取指定位置后固定位数的字符串。
表达式:=MID(文本, 提取子串的起始位置, 提取的子串长度)
例子:通过MID函数提取身份证号码里的出生年月日。
三、替代字符串函数
1、REPLACE函数
REPLACE函数主要是将字符串固定位置后一定长度的子串替代为指定的子串。
表达式:=REPLACE(文本, 被替代子串的起始位置, 被替代子串长度, 指定的替代文本)
例子:将手机号码后4位替换为星号
2、SUBSTITUTE函数
SUBSTITUTE函数跟REPLACE函数相似,也是替换掉字符串中的子串。SUBSTITUTE函数主要输入被替换的子串和指定的子串就可以将文本里的被替换子串全部替换掉。
表达式:=SUBSTITUTE(文本, 被替换的子串, 指定的子串)
例子:除了替换手机号外,还有就是将指定字符串中的空格全部去除
四、返回字符所在位置
1、FIND函数
FIND函数可以返回一个字符在字符串中所处的位置,区分大小写。其中第三个参数查找第几个字符的位置可以不填,默认为1,就是查找第1个指定字符所在的位置。
表达式:=FIND(要查找的字符, 字符串, [查找第几个字符])
例子:可以与LEFT函数组合起来提取邮箱的名称
2、SEARCH函数
SEARCH函数与FIND函数基本一致,就是不区分查找字符的大小写。
表达式:=SEARCH(要查找的字符, 字符串, [查找第几个字符])
例子:
五、其他
1、LEN、LENB函数
LEN、LENB函数能够获取字符串的长度,LEN函数下中文长度为1,LENB函数下中文长度为2。
表达式:=LEN(文本)
例子:
2、CONCATENATE函数
CONCATENATE函数用于将几个单元格的数据连接起来。
表达式:=CONCATENATE(单元格1, 单元格2, 文本, 单元格3)
例子:使用CONCATENATE函数通过前几个代码连接在一起形成学生学号
3、TEXT函数
TEXT函数可以将数值转换为我们想要的文本格式。
表达式:=TEXT(数值, 格式)
例子:将提取的身份证值按指定格式输出