当前位置: 首页 > news >正文

SQL常用数据清洗语句

数据清洗:发现并纠正数据文件里的数据错误和不一致性,让数据达到分析要求的过程。
运用 SQL 进行数据清洗时,可借助多种语句和函数来处理数据中的缺失值、重复值、异常值以及格式错误等问题。

1. 处理缺失值

数据中某些变量的值为空的情况,可采用删除包含缺失值的记录、用合适的值(如平均值、中位数等)来填充的方法。

删除包含缺失值的记录

DELETE FROM table_name
WHERE column_name IS NULL;

用特定值填充缺失值

UPDATE table_name
SET column_name = 'default_value'
WHERE column_name IS NULL;

用平均值填充缺失值

UPDATE table_name
SET column_name = (SELECT AVG(column_name) FROM table_name)
WHERE column_name IS NULL;

2. 处理重复值

数据中存在的完全相同或者部分字段相同的记录,可以使用 DISTINCT 关键字来去除重复值。

使用 DISTINCT 关键字查询无重复的数据

SELECT DISTINCT column1, column2
FROM table_name;

3. 处理异常值

数据中偏离正常范围的值,可以通过定义合理的范围来筛选出异常值,然后进行删除或者修正。

-- 删除价格小于 0 或者大于 1000 的异常记录
DELETE FROM products
WHERE price < 0 OR price > 1000;

4. 处理格式错误

数据格式不符合预期,例如日期格式错误、字符串长度不符合要求等。可以使用字符串函数和日期函数来修正格式错误。

转换日期格式

-- 将日期从 'YYYY-MM-DD' 格式转换为 'DD/MM/YYYY' 格式
SELECT DATE_FORMAT(date_column, '%d/%m/%Y')
FROM table_name;

去除字符串前后的空格

SELECT TRIM(column_name)
FROM table_name;

处理大小写不一致

-- 将所有姓名转换为大写
SELECT UPPER(name)
FROM customers;

相关文章:

  • Python初学 有差异的知识点总结(一)
  • 如何开展有组织的AI素养教育?
  • kubernetes常用命令 k8s指令大全
  • Oracle备份和恢复
  • 政务大模型的春天,AI办公先萌芽
  • 【软件工程】面向对象编程(OOP)概念详解
  • if consteval
  • 9. 使用Gazebo和Rviz显示机器人(包括运动控制,雷达,摄像头仿真以及显示)
  • yum install 失败
  • 政策支持与市场驱动:充电桩可持续发展的双轮引擎
  • cmake qt 项目编译
  • 亚马逊环保标识运营指南:抢占流量新赛道的6大策略解析
  • 对话式 BI:让数据洞察从“专业门槛”变为“对话本能”
  • 【Keil5-开发指南】
  • 使用Docker安装Harbor
  • 机器学习day2
  • 防火墙拦截DNS请求-原理解析
  • 核心要点:线程
  • 机器学习-08-时序数据分析预测
  • IEEE会议:第十届网络安全与信息工程国际会议(ICCSIE 2025)
  • 王沪宁主持召开全国政协主席会议
  • 从咖啡节到话剧、演唱会,上海虹口“文旅商体展”联动促消费
  • 银川市市长信箱被指已读乱回,官方回应
  • 年客流超2500万,九岁的上海国际旅游度假区有哪些文旅商体实践?
  • 铜钴巨头洛阳钼业一季度净利润同比大增九成,最新宣布首度进军黄金矿产
  • 为何不当教练转型高校管理岗?苏炳添曾吐露过真实的想法