python数据分析(八):Pandas 文本数据处理
Pandas 文本数据处理全面指南
1. 引言
在数据分析中,文本数据是常见的数据类型之一。Pandas 提供了强大的字符串处理方法,可以方便地对文本数据进行各种操作。本文将详细介绍 Pandas 中的文本处理功能,包括字符串连接(cat)、分割(split)、替换(replace)、提取(extract)、重复(repeat)等方法,并通过实际代码示例展示如何使用它们。
2. 字符串基本操作
2.1 访问字符串方法
在 Pandas 中,我们通过 str
访问器来使用字符串方法。
import pandas as pd# 创建示例数据
data = {'Name': ['Alice Smith', 'Bob Johnson', 'Charlie Brown'],'Email': ['alice@example.com', 'bob@test.org', 'charlie@demo.net']}
df = pd.DataFrame(data)# 使用str访问器
df['Name_Upper'] = df['Name'].str.upper()
print("大写姓名:\n", df['Name_Upper'])
输出:
大写姓名:0 ALICE SMITH
1 BOB JOHNSON
2 CHARLIE BROWN
Name: Name_Upper, dtype: object
解释:
- 通过
.str
访问器可以使用所有字符串方法 upper()
方法将字符串转换为大写
3. 字符串连接 (cat)
3.1 基本连接操作
cat()
方法用于连接字符串。
# 创建示例数据
s = pd.Series(['a', 'b', 'c'])# 简单连接
result = s.str.cat(sep=',')
print("\n简单连接结果:", result)# 与另一Series连接
s2 = pd.Series(['1', '2', '3'])
result = s.str.cat(s2, sep='-')
print("\nSeries间连接:\n", result)
输出:
简单连接结果: a,b,cSeries间连接:0 a-1
1 b-2
2 c-3
dtype: object
3.2 连接DataFrame中的多列
# 连接DataFrame中的多列
df['Name_Email'] = df['Name'].str.cat(df['Email'], sep=' <')
print("\n连接两列结果:\n", df['Name_Email'])
4. 字符串分割 (split)
4.1 基本分割操作
split()
方法用于分割字符串。
# 分割姓名
split_names = df['Name'].str.split(' ')
print("\n分割姓名:\n", split_names)# 获取分割后的第一部分
first_names = df['Name'].str.split(' ').str[0]
print("\n名字部分:\n", first_names)
输出:
分割姓名:0 [Alice, Smith]
1 [Bob, Johnson]
2 [Charlie, Brown]
Name: Name, dtype: object名字部分:0 Alice
1 Bob
2 Charlie
Name: Name, dtype: object
4.2 扩展分割结果
# 扩展分割结果为多列
df[['First_Name', 'Last_Name']] = df['Name'].str.split(' ', expand=True)
print("\n扩展分割结果:\n", df[['First_Name', 'Last_Name']])
5. 字符串替换 (replace)
5.1 基本替换操作
replace()
方法用于替换字符串中的内容。
# 替换域名
df['New_Email'] = df['Email'].str.replace(r'\.\w+$', '.com', regex=True)
print("\n替换域名后:\n", df['New_Email'])
输出:
替换域名后:0 alice@example.com
1 bob@test.com
2 charlie@demo.com
Name: New_Email, dtype: object
5.2 使用正则表达式替换
# 使用正则表达式替换
df['Initials'] = df['Name'].str.replace(r'(\w)\w*\s(\w)\w*', r'\1\2', regex=True)
print("\n姓名首字母:\n", df['Initials'])
6. 字符串提取 (extract)
6.1 使用正则表达式提取
extract()
方法使用正则表达式从字符串中提取内容。
# 从Email中提取用户名和域名
extracted = df['Email'].str.extract(r'(?P<Username>\w+)@(?P<Domain>\w+)\.\w+')
print("\n提取结果:\n", extracted)
输出:
提取结果:Username Domain
0 alice example
1 bob test
2 charlie demo
6.2 提取特定模式
# 提取名字中的元音字母
vowels = df['Name'].str.extractall(r'([aeiouAEIOU])')
print("\n元音字母:\n", vowels)
7. 字符串重复 (repeat)
7.1 基本重复操作
repeat()
方法用于重复字符串。
# 重复字符串
repeated = df['First_Name'].str.repeat(2)
print("\n重复名字:\n", repeated)
输出:
重复名字:0 AliceAlice
1 BobBob
2 CharlieCharlie
Name: First_Name, dtype: object
7.2 按不同次数重复
# 按不同次数重复
repeated = df['First_Name'].str.repeat([1, 2, 3])
print("\n按次数重复:\n", repeated)
8. 其他实用字符串方法
8.1 字符串长度 (len)
# 计算字符串长度
df['Name_Length'] = df['Name'].str.len()
print("\n姓名长度:\n", df['Name_Length'])
8.2 字符串包含 (contains)
# 检查是否包含特定字符串
contains_bob = df['Name'].str.contains('Bob')
print("\n包含Bob:\n", contains_bob)
8.3 字符串开始/结束 (startswith/endswith)
# 检查是否以特定字符串开始/结束
starts_with_a = df['Name'].str.startswith('A')
print("\n以A开头:\n", starts_with_a)
8.4 字符串填充 (pad)
# 字符串填充
padded = df['First_Name'].str.pad(width=10, side='right', fillchar='_')
print("\n填充结果:\n", padded)
8.5 字符串去除空白 (strip)
# 去除空白
df['Name'] = [' Alice ', 'Bob ', ' Charlie']
df['Name_Clean'] = df['Name'].str.strip()
print("\n去除空白后:\n", df['Name_Clean'])
9. 高级文本处理
9.1 使用 apply 进行复杂处理
# 使用apply进行复杂处理
def extract_vowels(name):return ''.join([c for c in name if c.lower() in 'aeiou'])df['Vowels'] = df['Name'].apply(extract_vowels)
print("\n提取元音:\n", df['Vowels'])
9.2 向量化字符串操作
# 向量化字符串操作
df['Name_Lower'] = df['Name'].str.lower()
df['Name_Title'] = df['Name'].str.title()
print("\n大小写转换:\n", df[['Name_Lower', 'Name_Title']])
10. 性能考虑
10.1 向量化操作 vs 循环
# 比较向量化操作和循环的性能
import timeit# 向量化操作
def vectorized():return df['Name'].str.upper()# 循环操作
def loop():return [name.upper() for name in df['Name']]print("\n向量化操作时间:", timeit.timeit(vectorized, number=1000))
print("循环操作时间:", timeit.timeit(loop, number=1000))
11. 总结
-
字符串基本操作:
- 通过
.str
访问器使用字符串方法 - 支持大小写转换、长度计算等基本操作
- 通过
-
字符串连接 (cat):
- 连接Series中的字符串
- 连接不同Series或DataFrame列
-
字符串分割 (split):
- 按分隔符分割字符串
- 可将分割结果扩展为多列
-
字符串替换 (replace):
- 简单字符串替换
- 支持正则表达式替换
-
字符串提取 (extract):
- 使用正则表达式提取特定模式
- 可命名提取组
-
字符串重复 (repeat):
- 重复字符串指定次数
- 可为不同元素指定不同重复次数
-
其他实用方法:
contains
检查包含关系startswith/endswith
检查开头/结尾pad
填充字符串strip
去除空白
-
性能考虑:
- 向量化操作通常比循环快
- 对于复杂操作,可结合使用
apply
Pandas 的字符串方法提供了强大而灵活的文本处理能力,可以满足大多数数据分析中的文本处理需求。掌握这些方法将大大提高你处理文本数据的效率和灵活性。