当前位置：首页 > news >正文

将 DataFrame 中某一列的列表拆分成多个独立的列的方式

news 2025/7/5 7:41:38

要将 DataFrame 中某一列的列表拆分成多个独立的列，可以使用以下方法，具体取决于数据结构和需求：

场景示例

假设 DataFrame 中 genres 列存储的是列表（如 ['drama', 'action']），目标是将每个列表元素拆分成多列：

import pandas as pd

# 示例数据
data = {
    'ID': [1, 2, 3],
    'genres': [
        ['drama', 'action'],
        ['comedy'],
        ['thriller', 'horror', 'mystery']
    ]
}
df = pd.DataFrame(data)

方法 1：横向拆分列表为多列

将列表元素按位置拆分成 genre_1, genre_2, ... 的列，适合固定长度的列表或保留元素顺序。

步骤

将列表列转换为多列：

genres_expanded = df['genres'].apply(pd.Series)

重命名新列（可选）：

genres_expanded.columns = [f'genre_{i+1}' for i in genres_expanded.columns]

合并回原 DataFrame：

df = pd.concat([df, genres_expanded], axis=1)

输出结果

   ID                     genres genre_1 genre_2   genre_3
0   1           [drama, action]   drama  action       NaN
1   2                  [comedy]  comedy     NaN       NaN
2   3  [thriller, horror, mystery] thriller  horror  mystery

方法 2：独热编码（One-Hot Encoding）

将列表元素转换为布尔列（每个元素为一列，存在则为 1，否则为 0），适合分类统计。

步骤

使用 MultiLabelBinarizer（需安装 scikit-learn）：

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
genres_encoded = pd.DataFrame(
    mlb.fit_transform(df['genres']),
    columns=mlb.classes_,
    index=df.index
)

合并回原 DataFrame：

df = pd.concat([df, genres_encoded], axis=1)

输出结果

   ID                     genres  action  comedy  drama  horror  mystery  thriller
0   1           [drama, action]       1       0      1       0        0         0
1   2                  [comedy]       0       1      0       0        0         0
2   3  [thriller, horror, mystery] 0       0      0       1        1         1

方法 3：纵向展开为多行

将列表元素拆分成多行（每行一个元素），适合后续聚合或统计每个元素出现的次数。

步骤

df_exploded = df.explode('genres')

输出结果

   ID    genres
0   1     drama
0   1    action
1   2    comedy
2   3  thriller
2   3    horror
2   3  mystery

选择建议

需求	推荐方法	工具
保留元素顺序和位置	横向拆分（方法1）	`pd.Series` + `pd.concat`
统计元素存在性（分类分析）	独热编码（方法2）	`MultiLabelBinarizer`
展开元素为独立行	纵向展开（方法3）	`df.explode()`

处理原始数据为列表

如果原数据是字符串（如 "drama,action"），需先转换为列表：

# 将字符串按分隔符拆分成列表
df['genres'] = df['genres'].str.split(',')

代码整合

import pandas as pd

# 示例数据（假设 genres 是字符串）
data = {
    'ID': [1, 2, 3],
    'genres': ['drama,action', 'comedy', 'thriller,horror,mystery']
}
df = pd.DataFrame(data)

# Step 1: 转换为列表
df['genres'] = df['genres'].str.split(',')

# Step 2: 横向拆分为多列
genres_expanded = df['genres'].apply(pd.Series).add_prefix('genre_')
df_split = pd.concat([df, genres_expanded], axis=1)

print("=== 横向拆分结果 ===")
print(df_split)

# Step 3: 独热编码
from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
genres_encoded = pd.DataFrame(mlb.fit_transform(df['genres']), columns=mlb.classes_, index=df.index)
df_encoded = pd.concat([df, genres_encoded], axis=1)

print("\n=== 独热编码结果 ===")
print(df_encoded)

# Step 4: 纵向展开
df_exploded = df.explode('genres')
print("\n=== 纵向展开结果 ===")
print(df_exploded)

输出示例

=== 横向拆分结果 ===
   ID               genres genre_0 genre_1   genre_2
0   1       [drama, action]   drama  action       NaN
1   2              [comedy]  comedy     NaN       NaN
2   3  [thriller, horror, mystery] thriller   horror  mystery

=== 独热编码结果 ===
   ID               genres  action  comedy  drama  horror  mystery  thriller
0   1       [drama, action]       1       0      1       0        0         0
1   2              [comedy]       0       1      0       0        0         0
2   3  [thriller, horror, mystery]       0       0      0       1        1         1

=== 纵向展开结果 ===
   ID    genres
0   1     drama
0   1    action
1   2    comedy
2   3  thriller
2   3    horror
2   3  mystery

根据分析目标选择最合适的方法即可！

查看全文

http://www.dtcms.com/a/113307.html