第7章-航空公司客户价值分析
7.1描述性统计分析
# 对数据进行基本的探索
# 返回缺失值个数以及最大最小值import pandas as pddatafile= ..demo/data/air_data.csv' # 航空原始数据,第一行为属性标签
resultfile = ..demo/tmp/explore.csv' # 数据探索结果表# 读取原始数据,指定UTF-8编码(需要用文本编辑器将数据装换为UTF-8编码)
data = pd.read_csv(datafile, encoding = 'utf-8')# 包括对数据的基本描述,percentiles参数是指定计算多少的分位数表(如1/4分位数、中位数等)
explore = data.describe(percentiles = [], include = 'all').T # T是转置,转置后更方便查阅
explore['null'] = len(data)-explore['count'] # describe()函数自动计算非空值数,需要手动计算空值数explore = explore[['null', 'max', 'min']]
explore.columns = ['空值数', '最大值',