当前位置：首页 > news >正文

Python | 如何在Pandas中删除常量列

news 2025/10/14 10:30:27

在数据分析中，经常会遇到数据集中始终具有常量值的列（即，该列中的所有行包含相同的值）。这样的常量列不提供有意义的信息，可以安全地删除而不影响分析。

如：
在这里插入图片描述
在本文中，我们将探索如何使用Python识别和删除Pandas DataFrame中的常量列。

为什么要删除常量列？

常数列不提供可变性，这意味着它们无助于区分不同的数据点。在许多机器学习模型中，这些列会引入冗余或不相关的数据，从而对性能产生负面影响。因此，通常必须删除常量列，以便：

减少数据集的维数。
提高计算效率。
增强模型的可解释性。

步骤1：在Pandas中识别常量列

Pandas提供了几种识别和删除常量列的方法。我们可以检查唯一值的数量正好为1的列。

.nunique()函数在这方面特别有用，因为它返回每列中不同元素的数量。

import pandas as pd

# Sample DataFrame with constant and non-constant columns
data = {
    'A': [1, 1, 1, 1],
    'B': [2, 3, 4, 5],
    'C': ['X', 'X', 'X', 'X'],
    'D': [10, 11, 12, 13]
}

df = pd.DataFrame(data)

# Identify constant columns
constant_columns = [col for col in df.columns if df[col].nunique() == 1]

# Display constant columns
print("Constant columns:", constant_columns)

输出

Constant columns: ['A', 'C']

在这种情况下，列A和列C被标识为常量，因为它们只有一个唯一值。

步骤2：删除常量列

一旦我们确定了常量列，我们就可以使用Pandas中的.drop()函数轻松删除它们。

# Drop constant columns
df_cleaned = df.drop(columns=constant_columns)

# Display the cleaned DataFrame
print(df_cleaned)

输出

在这里，清理后的DataFrame已删除常量列A和C。

步骤3：删除较大数据集中的常量列

让我们考虑一个更大的数据集，其中某些列可能具有常量值。

import numpy as np

# Create a DataFrame with random and constant columns
data = {
    'X1': np.random.randint(0, 100, size=100),
    'X2': [5] * 100,    # Constant column
    'X3': np.random.randint(0, 100, size=100),
    'X4': [3] * 100,    # Constant column
}

df_large = pd.DataFrame(data)

# Remove constant columns in the larger dataset
constant_columns = [col for col in df_large.columns if df_large[col].nunique() == 1]
df_large_cleaned = df_large.drop(columns=constant_columns)

print("Original DataFrame Shape:", df_large.shape)
print(df_large.head())

print("Cleaned DataFrame Shape:", df_large_cleaned.shape)
print(df_large_cleaned.head())