当前位置：首页 > wzjs >正文

漳州建设局网站首页建网站哪个平台好

wzjs 2025/8/18 17:34:40

漳州建设局网站首页,建网站哪个平台好,网站做任务,课程商城网站模板要将 DataFrame 中某一列的列表拆分成多个独立的列，可以使用以下方法，具体取决于数据结构和需求： 场景示例假设 DataFrame 中 genres 列存储的是列表（如 [drama, action]），目标是将每个列表元素拆分成多列…

要将 DataFrame 中某一列的列表拆分成多个独立的列，可以使用以下方法，具体取决于数据结构和需求：

场景示例

假设 DataFrame 中 genres 列存储的是列表（如 ['drama', 'action']），目标是将每个列表元素拆分成多列：

import pandas as pd# 示例数据
data = {'ID': [1, 2, 3],'genres': [['drama', 'action'],['comedy'],['thriller', 'horror', 'mystery']]
}
df = pd.DataFrame(data)

方法 1：横向拆分列表为多列

将列表元素按位置拆分成 genre_1, genre_2, ... 的列，适合固定长度的列表或保留元素顺序。

步骤

将列表列转换为多列：

genres_expanded = df['genres'].apply(pd.Series)

重命名新列（可选）：

genres_expanded.columns = [f'genre_{i+1}' for i in genres_expanded.columns]

合并回原 DataFrame：

df = pd.concat([df, genres_expanded], axis=1)

输出结果

   ID                     genres genre_1 genre_2   genre_3
0   1           [drama, action]   drama  action       NaN
1   2                  [comedy]  comedy     NaN       NaN
2   3  [thriller, horror, mystery] thriller  horror  mystery

方法 2：独热编码（One-Hot Encoding）

将列表元素转换为布尔列（每个元素为一列，存在则为 1，否则为 0），适合分类统计。

步骤

使用 MultiLabelBinarizer（需安装 scikit-learn）：

from sklearn.preprocessing import MultiLabelBinarizermlb = MultiLabelBinarizer()
genres_encoded = pd.DataFrame(mlb.fit_transform(df['genres']),columns=mlb.classes_,index=df.index
)

合并回原 DataFrame：

df = pd.concat([df, genres_encoded], axis=1)

输出结果

   ID                     genres  action  comedy  drama  horror  mystery  thriller
0   1           [drama, action]       1       0      1       0        0         0
1   2                  [comedy]       0       1      0       0        0         0
2   3  [thriller, horror, mystery] 0       0      0       1        1         1

方法 3：纵向展开为多行

将列表元素拆分成多行（每行一个元素），适合后续聚合或统计每个元素出现的次数。

步骤

df_exploded = df.explode('genres')

输出结果

   ID    genres
0   1     drama
0   1    action
1   2    comedy
2   3  thriller
2   3    horror
2   3  mystery

选择建议

需求	推荐方法	工具
保留元素顺序和位置	横向拆分（方法1）	`pd.Series` + `pd.concat`
统计元素存在性（分类分析）	独热编码（方法2）	`MultiLabelBinarizer`
展开元素为独立行	纵向展开（方法3）	`df.explode()`

处理原始数据为列表

如果原数据是字符串（如 "drama,action"），需先转换为列表：

# 将字符串按分隔符拆分成列表
df['genres'] = df['genres'].str.split(',')

代码整合

import pandas as pd# 示例数据（假设 genres 是字符串）
data = {'ID': [1, 2, 3],'genres': ['drama,action', 'comedy', 'thriller,horror,mystery']
}
df = pd.DataFrame(data)# Step 1: 转换为列表
df['genres'] = df['genres'].str.split(',')# Step 2: 横向拆分为多列
genres_expanded = df['genres'].apply(pd.Series).add_prefix('genre_')
df_split = pd.concat([df, genres_expanded], axis=1)print("=== 横向拆分结果 ===")
print(df_split)# Step 3: 独热编码
from sklearn.preprocessing import MultiLabelBinarizermlb = MultiLabelBinarizer()
genres_encoded = pd.DataFrame(mlb.fit_transform(df['genres']), columns=mlb.classes_, index=df.index)
df_encoded = pd.concat([df, genres_encoded], axis=1)print("\n=== 独热编码结果 ===")
print(df_encoded)# Step 4: 纵向展开
df_exploded = df.explode('genres')
print("\n=== 纵向展开结果 ===")
print(df_exploded)

输出示例

=== 横向拆分结果 ===ID               genres genre_0 genre_1   genre_2
0   1       [drama, action]   drama  action       NaN
1   2              [comedy]  comedy     NaN       NaN
2   3  [thriller, horror, mystery] thriller   horror  mystery=== 独热编码结果 ===ID               genres  action  comedy  drama  horror  mystery  thriller
0   1       [drama, action]       1       0      1       0        0         0
1   2              [comedy]       0       1      0       0        0         0
2   3  [thriller, horror, mystery]       0       0      0       1        1         1=== 纵向展开结果 ===ID    genres
0   1     drama
0   1    action
1   2    comedy
2   3  thriller
2   3    horror
2   3  mystery

根据分析目标选择最合适的方法即可！

查看全文

http://www.dtcms.com/wzjs/394920.html