当前位置: 首页 > news >正文

对应列表数据的分割和分组

要基于指定的流派列表分割数据,可以使用 布尔索引groupby 结合筛选。以下是具体方法:


场景假设

  • 数据列 genres 中的值可能是多流派的字符串,例如 "drama,action"["drama", "action"]
  • 目标:根据给定的流派列表 ['drama', 'action', 'thriller', 'european'],提取每个流派对应的所有电影数据。

方法 1:布尔索引(推荐)

直接筛选包含指定流派的记录,即使一条数据属于多个流派也会被重复计入不同分组。

步骤
  1. 预处理流派列(确保格式统一):

    # 将 genres 转换为小写,并拆分成列表(假设原数据用逗号分隔)
    combined_data['genres'] = combined_data['genres'].str.lower().str.split(',')
    
  2. 定义目标流派列表

    target_genres = ['drama', 'action', 'thriller', 'european']
    
  3. 创建字典存储各流派数据

    genre_dict = {}
    for genre in target_genres:
        # 生成布尔掩码:检查每条记录的 genres 是否包含当前流派
        mask = combined_data['genres'].apply(lambda x: genre in x)
        genre_dict[genre] = combined_data[mask]
    
验证结果
# 查看 action 流派的数据量
print(f"Action 电影数量: {len(genre_dict['action'])}")

# 查看前 2 个流派的数据
for genre in list(genre_dict.keys())[:2]:
    print(f"=== {genre.upper()} ===")
    print(genre_dict[genre].head(2))

方法 2:使用 groupby + 筛选

genres 是单一标签(非多标签),可以直接分组:

步骤
  1. 预处理为单一流派(如无多标签):

    # 如果存在多标签,取第一个流派作为主标签(根据需求调整)
    combined_data['main_genre'] = combined_data['genres'].str.split(',').str[0]
    
  2. 分组并提取目标流派

    target_genres = ['drama', 'action', 'thriller', 'european']
    grouped = combined_data.groupby('main_genre')
    genre_dict = {genre: grouped.get_group(genre) for genre in target_genres if genre in grouped.groups}
    

输出示例

假设原始数据片段:

Titlegenres
Movie Adrama,action
Movie Bthriller
Movie Ceuropean,drama

执行方法 1 后,genre_dict['drama'] 将包含:

Titlegenres
Movie A[‘drama’, ‘action’]
Movie C[‘european’, ‘drama’]

注意事项

  1. 大小写敏感:预处理时统一转换为小写(或大写)。
  2. 多标签分隔符:确保正确拆分原数据中的分隔符(如 ,| 等)。
  3. 空值处理:检查并处理 genres 列中的缺失值:
    combined_data = combined_data.dropna(subset=['genres'])
    

完整代码示例

import pandas as pd

# 假设数据格式
data = {
    'Title': ['Movie A', 'Movie B', 'Movie C', 'Movie D'],
    'genres': ['Drama,Action', 'Thriller', 'European,Drama', 'Comedy']
}
combined_data = pd.DataFrame(data)

# 预处理:转为小写并拆分成列表
combined_data['genres'] = combined_data['genres'].str.lower().str.split(',')

# 目标流派列表
target_genres = ['drama', 'action', 'thriller', 'european']

# 创建字典存储各流派数据
genre_dict = {}
for genre in target_genres:
    mask = combined_data['genres'].apply(lambda x: genre in x)
    genre_dict[genre] = combined_data[mask]

# 查看结果
for genre, df in genre_dict.items():
    print(f"\n=== {genre.upper()} 流派 ({len(df)} 部电影) ===")
    print(df[['Title', 'genres']])

输出结果

=== DRAMA 流派 (2 部电影) ===
     Title          genres
0  Movie A  [drama, action]
2  Movie C  [european, drama]

=== ACTION 流派 (1 部电影) ===
     Title          genres
0  Movie A  [drama, action]

=== THRILLER 流派 (1 部电影) ===
     Title     genres
1  Movie B  [thriller]

=== EUROPEAN 流派 (1 部电影) ===
     Title          genres
2  Movie C  [european, drama]
http://www.dtcms.com/a/112916.html

相关文章:

  • 【瑞萨 RA-Eco-RA2E1-48PIN-V1.0 开发板测评】PWM
  • tkiner模块的初步学习
  • 冷门预警,英超006:埃弗顿VS阿森纳,阿森纳分心欧冠,太妃糖或有机可乘
  • TDengine 3.3.6.0 版本中非常实用的 Cols 函数
  • Vue.js设计与实现学习
  • 走进未来的交互世界:下一代HMI设计趋势解析
  • 第九章Python语言高阶加强-面向对象篇
  • 基于Python的微博数据采集
  • 架构及大数据-Zookeeper与Kafka的关系及使用依赖,二者需要同时使用吗?KRaft模式又是啥?
  • Linux常用命令详解:从基础到进阶
  • 基于Python+Flask的服装零售商城APP方案,用到了DeepSeek AI、个性化推荐和AR虚拟试衣功能
  • DCMM详解
  • JS DOM 修改表单样式
  • 浅谈AI - DeepSpeed - 单卡慎用!
  • opencv中mat深拷贝和浅拷贝
  • 常用中间件合集
  • 深入理解 C++ 三大特性之一 继承
  • Java项目之基于ssm的孩童收养信息管理(源码+文档)
  • 详细分析单例模式
  • 【AI编程学习之Python】第五天:Python的变量和常量
  • Kafka 高吞吐量的原因是什么?
  • CNN 中感受野/权值共享是什么意思?
  • 基于Python的图书借阅推荐系统设计与实现
  • 深度学习的疑问(GNN)【1】:图采样与训练
  • html 给文本两端加虚线自适应
  • MySQL学习笔记(三)——图形化界面工具DataGrip
  • 深入解析C++智能指针:从内存管理到现代编程实践
  • Swagger @ApiOperation
  • Qt之QNetworkInterface
  • 低代码开发平台:飞帆中的控件中转区