当前位置：首页 > news >正文

python中如何把dataframe转换为列表及其性能比较

news 2025/10/16 4:34:06

在Python中，将DataFrame转换为列表常用的方法有以下几种：

### 1. 使用values属性

先通过`values`属性将DataFrame转换为NumPy数组，然后再调用`tolist()`方法将数组转换为列表。这是一种简单直接的方式，适用于快速将整个DataFrame转换为嵌套列表，每个内部列表代表DataFrame中的一行数据。

```python

import pandas as pd

# 创建一个示例DataFrame

df = pd.DataFrame({

'名字': ['小明', '小红', '小张'],

'年龄': [18, 20, 19],

'成绩': [85, 92, 88]

})

# 使用values属性转换为列表

list_from_values = df.values.tolist()

print(list_from_values)

```

### 2. 使用to_numpy()方法

从pandas 0.24版本开始可用，先使用`to_numpy()`方法将DataFrame转换为NumPy数组，再通过`tolist()`方法转换为列表。该方法比`values`属性更加灵活，在处理混合类型数据时，能更好地控制输出的数据类型。

```python

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({
    '名字': ['小明', '小红', '小张'],
    '年龄': [18, 20, 19],
    '成绩': [85, 92, 88]
})
# 使用to_numpy()方法转换为列表
print('转换成numpy数组：')
print(df.to_numpy())
list_from_numpy = df.to_numpy().tolist()
print(list_from_numpy)

```

### 3. 使用列表推导式

通过遍历DataFrame的行或列，将每一行或每一列的数据转换为列表。这种方法的优点是代码简洁，并且可以在转换过程中方便地对数据进行额外的处理，例如筛选、转换数据格式等。

```python

import pandas as pd

# 创建一个示例DataFrame

df = pd.DataFrame({

'名字': ['小明', '小红', '小张'],

'年龄': [18, 20, 19],

'成绩': [85, 92, 88]

})

# 使用列表推导式转换为列表

list_from_comprehension = [list(row) for _, row in df.iterrows()]

print(list_from_comprehension)

```

**性能比较**：

在处理较小规模的DataFrame时，`values`属性和`to_numpy()`方法的性能相近，都相对高效，因为它们底层都是基于NumPy数组进行操作，并且转换过程较为直接。而列表推导式由于涉及到Python层面的循环迭代，相比前两者在时间上会稍慢一些。

在处理大规模DataFrame时，`values`属性和`to_numpy()`方法通常依然表现较好。但如果DataFrame非常大，内存可能会成为瓶颈。此时列表推导式可以通过逐行处理，在一定程度上减少内存的占用压力，不过整体处理时间可能会更长。

```python

import pandas as pd
import timeit

# 创建一个大规模的 DataFrame
data = {
    'col1': list(range(10000)),
    'col2': list(range(10000, 20000)),
    'col3': list(range(20000, 30000))
}
df = pd.DataFrame(data)

# 定义使用 values.tolist() 的转换函数
def convert_with_values():
    return df.values.tolist()

# 定义使用 to_numpy().tolist() 的转换函数
def convert_with_to_numpy():
    return df.to_numpy().tolist()

# 定义使用列表推导式的转换函数
def convert_with_list_comprehension():
    return [list(row) for _, row in df.iterrows()]

# 分别测试三种方法的性能
time_values = timeit.timeit(convert_with_values, number=100)
time_to_numpy = timeit.timeit(convert_with_to_numpy, number=100)
time_list_comprehension = timeit.timeit(convert_with_list_comprehension, number=100)

print(f"使用 values.tolist() 方法花费的时间: {time_values} 秒")
print(f"使用 to_numpy().tolist() 方法花费的时间: {time_to_numpy} 秒")
print(f"使用列表推导式方法花费的时间: {time_list_comprehension} 秒")