当前位置: 首页 > news >正文

python中如何把dataframe转换为列表及其性能比较

在Python中,将DataFrame转换为列表常用的方法有以下几种:

### 1. 使用values属性

先通过`values`属性将DataFrame转换为NumPy数组,然后再调用`tolist()`方法将数组转换为列表。这是一种简单直接的方式,适用于快速将整个DataFrame转换为嵌套列表,每个内部列表代表DataFrame中的一行数据。

```python

import pandas as pd

# 创建一个示例DataFrame

df = pd.DataFrame({

    '名字': ['小明', '小红', '小张'],

    '年龄': [18, 20, 19],

    '成绩': [85, 92, 88]

})

# 使用values属性转换为列表

list_from_values = df.values.tolist()

print(list_from_values)

```

### 2. 使用to_numpy()方法

从pandas 0.24版本开始可用,先使用`to_numpy()`方法将DataFrame转换为NumPy数组,再通过`tolist()`方法转换为列表。该方法比`values`属性更加灵活,在处理混合类型数据时,能更好地控制输出的数据类型。

```python

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({
   
'名字': ['小明', '小红', '小张'],
   
'年龄': [18, 20, 19],
   
'成绩': [85, 92, 88]
})

# 使用to_numpy()方法转换为列表
print('转换成numpy数组:')
print(df.to_numpy())
list_from_numpy = df.to_numpy().tolist()

print(list_from_numpy)

```

### 3. 使用列表推导式

通过遍历DataFrame的行或列,将每一行或每一列的数据转换为列表。这种方法的优点是代码简洁,并且可以在转换过程中方便地对数据进行额外的处理,例如筛选、转换数据格式等。

```python

import pandas as pd

# 创建一个示例DataFrame

df = pd.DataFrame({

    '名字': ['小明', '小红', '小张'],

    '年龄': [18, 20, 19],

    '成绩': [85, 92, 88]

})

# 使用列表推导式转换为列表

list_from_comprehension = [list(row) for _, row in df.iterrows()]

print(list_from_comprehension)

```

**性能比较**:

在处理较小规模的DataFrame时,`values`属性和`to_numpy()`方法的性能相近,都相对高效,因为它们底层都是基于NumPy数组进行操作,并且转换过程较为直接。而列表推导式由于涉及到Python层面的循环迭代,相比前两者在时间上会稍慢一些。

在处理大规模DataFrame时,`values`属性和`to_numpy()`方法通常依然表现较好。但如果DataFrame非常大,内存可能会成为瓶颈。此时列表推导式可以通过逐行处理,在一定程度上减少内存的占用压力,不过整体处理时间可能会更长。

```python

import pandas as pd
import timeit

# 创建一个大规模的 DataFrame
data = {
   
'col1': list(range(10000)),
   
'col2': list(range(10000, 20000)),
   
'col3': list(range(20000, 30000))
}
df = pd.DataFrame(data)


# 定义使用 values.tolist() 的转换函数
def convert_with_values():
   
return df.values.tolist()

# 定义使用 to_numpy().tolist() 的转换函数
def convert_with_to_numpy():
   
return df.to_numpy().tolist()

# 定义使用列表推导式的转换函数
def convert_with_list_comprehension():
   
return [list(row) for _, row in df.iterrows()]

# 分别测试三种方法的性能
time_values = timeit.timeit(convert_with_values, number=100)
time_to_numpy = timeit.timeit(convert_with_to_numpy,
number=100)
time_list_comprehension = timeit.timeit(convert_with_list_comprehension,
number=100)

print(f"使用 values.tolist() 方法花费的时间: {time_values} ")
print(f"使用 to_numpy().tolist() 方法花费的时间: {time_to_numpy} ")
print(f"使用列表推导式方法花费的时间: {time_list_comprehension} ")

```

如果对性能要求极高,并且数据量很大,可以考虑使用诸如Dask这样的库进行并行处理,它可以将大规模数据分割成多个小的分区,并行地进行转换操作,从而提高整体的处理效率。

综上所述,如果只是简单地将DataFrame转换为列表且对数据处理过程没有特殊要求,优先考虑使用`values`属性或`to_numpy()`方法;如果需要在转换过程中灵活地对数据进行额外处理,则列表推导式会是更好的选择。

相关文章:

  • 【模拟CMOS集成电路设计】带隙基准(Bandgap)设计与仿真(基于运放的电流模BGR)
  • 【氮化镓】高输入功率应力诱导的GaN 在下的退化LNA退化
  • 【C】初阶数据结构9 -- 直接插入排序
  • Compose 实践与探索二 —— 状态订阅与自动更新1
  • Blueprint —— 蓝图技术指南
  • 初始化E9环境,安装Sqlserver数据库
  • 分布式事务的原理
  • 贪心算法精解:用C++征服最优解问题
  • 数据链路层 (以太帧 MAC地址 ARP协议)
  • 基于SpringBoot的手机销售网站设计与实现(源码+SQL脚本+LW+部署讲解等)
  • Liunx(CentOS-6-x86_64)使用Nginx部署Vue项目
  • 水下机器人推进器PID参数整定与MATLAB仿真
  • 同步模式之顺序控制,如何控制三个线程依次输出: abc abc abc abc abc?
  • 本地部署Navidrome个人云音乐平台随时随地畅听本地音乐文件
  • 无刷电动智能充气泵方案【天吉智芯】
  • 【软件逆向】QQ 连连看小游戏去广告与一键消除实现
  • 数据量过大的时候导出数据很慢
  • 蓝桥杯备赛-基础训练(四)字符串 day17
  • 初识Spring Batch:开启批处理的高效之旅
  • 软件性能测试与功能测试联系和区别
  • 陕西礼泉一村民被冒名贷款40余万,法院发现涉嫌经济犯罪驳回起诉
  • “五一”假期出入境人数达1089.6万人次,同比增长28.7%
  • 言短意长|如何看待“订不到酒店的游客住进局长家”这件事
  • 专访|刘伟强:在《水饺皇后》里,我放进儿时全家福照片
  • 9米长林肯车开进安徽“皖南川藏线”致拥堵数小时,车主回应争议称配合调查
  • 重庆市大渡口区区长黄红已任九龙坡区政协党组书记