零基础上手Python数据分析 (12):DataFrame 数据清洗与预处理 (下) - 类型转换、格式化、文本与日期处理
写在前面
上一篇博客,我们学习了如何使用 Pandas 处理数据分析中最常见的 “脏数据”:缺失值、重复值和异常值。 这为我们处理数据质量问题打下了坚实的基础。 然而,数据清洗的挑战远不止于此。 在实际数据中,我们还会经常遇到 数据类型不一致、数据格式不规范、文本数据混乱、日期时间数据处理复杂 等问题。
数据规范性的重要性:分析结果的基石
想象一下,你正在分析一份销售数据,其中 “销售额” 列的数据类型有时是数字,有时是包含货币符号的文本 (例如 “¥1,200.00”);“日期” 列的格式五花八门 (“2023-10-27”, “10/27/2023”, “2023年10月27日”);“商品描述” 列包含多余的空格、大小写混乱。 如果直接使用这些不规范的数据进行分析,将会遇到各种问题:
- 计算错误: 包含文本的 “销售额” 列无法直接进行求和、平均等数值计算。
- 无法比较和排序: 格式不统一的 “日期” 列无法正确比较先后顺序或进行时间序列分析。
- 分组聚合失败: 大小写混乱、包含多余空格的 “商品描述” 列会导致同一商品被识别为不同类别ÿ