当前位置: 首页 > wzjs >正文

如何建设一家网站2023b站免费推广入口

如何建设一家网站,2023b站免费推广入口,做网站怎样申请动态域名,做网站的人找不到了利用 MySQL 进行数据清洗是数据预处理的重要环节,以下是常见的数据清洗操作及对应 SQL 示例:1. 去除重复数据使用 ROW_NUMBER() 或 GROUP BY 识别并删除重复记录。-- 查找重复记录(以 user_id 和 email 为例) WITH Duplicates AS …

        利用 MySQL 进行数据清洗是数据预处理的重要环节,以下是常见的数据清洗操作及对应 SQL 示例:

1. 去除重复数据

使用 ROW_NUMBER() 或 GROUP BY 识别并删除重复记录。

-- 查找重复记录(以 user_id 和 email 为例)
WITH Duplicates AS (SELECT user_id, email, ROW_NUMBER() OVER (PARTITION BY email ORDER BY user_id) AS rnFROM users
)
SELECT * FROM Duplicates WHERE rn > 1;-- 删除重复记录(保留最新的一条)
DELETE FROM users
WHERE user_id NOT IN (SELECT MAX(user_id) FROM users GROUP BY email
);

2. 处理缺失值

  • 填充默认值:使用 COALESCE() 或 IFNULL()
  • 删除缺失值:使用 WHERE 过滤。
-- 填充缺失值(将 NULL 替换为默认值)
UPDATE products
SET price = COALESCE(price, 0),  -- 价格为 NULL 时填充 0category = IFNULL(category, '未知')  -- 分类为 NULL 时填充 '未知'
WHERE price IS NULL OR category IS NULL;-- 删除包含缺失值的记录
DELETE FROM orders
WHERE customer_id IS NULL;

3. 数据标准化(大小写、格式统一)

  • 转换大小写:使用 UPPER() 或 LOWER()
  • 去除空格:使用 TRIM()
  • 日期格式化:使用 STR_TO_DATE() 或 DATE_FORMAT()
-- 统一邮箱为小写
UPDATE users
SET email = LOWER(TRIM(email));-- 标准化日期格式(将 '2023-12-31' 转为 '31-12-2023')
UPDATE orders
SET order_date = DATE_FORMAT(STR_TO_DATE(order_date, '%Y-%m-%d'), '%d-%m-%Y');

4. 处理无效数据

  • 范围过滤:检查数值是否在合理区间。
  • 正则匹配:验证格式(如邮箱、手机号)。
-- 删除年龄小于 0 或大于 120 的记录
DELETE FROM users
WHERE age < 0 OR age > 120;-- 查找不符合邮箱格式的记录
SELECT * FROM users
WHERE email NOT REGEXP '^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}$';

5. 数据类型转换

使用 CAST() 或 CONVERT() 转换字段类型。

-- 将字符串类型的价格转为数值类型
ALTER TABLE products
MODIFY price DECIMAL(10, 2) AFTER CAST(price AS DECIMAL(10, 2));

6. 合并 / 拆分字段

  • 合并字段:使用 CONCAT()
  • 拆分字段:使用 SUBSTRING() 或 SUBSTRING_INDEX()
-- 合并姓名(first_name 和 last_name)
UPDATE users
SET full_name = CONCAT(first_name, ' ', last_name);-- 拆分地址(以逗号分隔)
ALTER TABLE customers
ADD street VARCHAR(100),
ADD city VARCHAR(50);UPDATE customers
SET street = SUBSTRING_INDEX(address, ',', 1),city = SUBSTRING_INDEX(address, ',', -1);

7. 异常值处理

通过统计方法(如 Z-score)识别并处理异常值。

-- 计算平均价格和标准差
WITH Stats AS (SELECT AVG(price) AS avg_price,STDDEV(price) AS std_priceFROM products
)
-- 删除价格超过 3 个标准差的异常值
DELETE FROM products
WHERE ABS(price - (SELECT avg_price FROM Stats)) > 3 * (SELECT std_price FROM Stats);

执行建议

  1. 备份数据:清洗前先备份,避免误操作。
  2. 测试逻辑先用 SELECT 验证清洗逻辑,再执行 UPDATE 或 DELETE
  3. 分批处理:大数据量时使用 LIMIT 分批更新,避免锁表。
-- 示例:分批删除重复记录
DELETE FROM users
WHERE user_id IN (SELECT user_id FROM (SELECT user_id, ROW_NUMBER() OVER (PARTITION BY email ORDER BY user_id) AS rnFROM users) tWHERE rn > 1
)
LIMIT 1000;  -- 每次处理 1000 条

http://www.dtcms.com/wzjs/416447.html

相关文章:

  • 门户网站建设的企业十大网站平台
  • 关于网站建设的合同范本百度官网地址
  • 社团网站建设优化设计答案六年级
  • 手机移动端网站怎么做的google play谷歌商店
  • 国内顶尖网站设计公司怎么去推广自己的产品
  • 加强网站互动交流平台建设自查营销网站建设的因素
  • 个人网站备案流程和规则qq群排名优化软件官网
  • element ui做门户网站cnzz站长统计工具
  • 全球ic采购网优化关键词规则
  • 做网站去哪个公司好百度客服
  • 电商网站开发缓存公众号怎么开通
  • 在京东上怎样做网站莆田百度快照优化
  • 怎么做网站广告代理商平面设计网站
  • 经典网站欣赏seo工程师是什么职业
  • 电商网站建设信息小学生一分钟新闻播报
  • 北京市政府网站建设与管理规范新的seo网站优化排名 排名
  • wordpress博客换域名怎么操作深圳专业seo
  • 怎么弄网址石家庄seo公司
  • 中国建设银行福清分行网站seo优化在线诊断
  • 吉粤建设工程股份有限公司网站海南百度推广总代理商
  • 桔子建站是什么平台大连seo网站推广
  • 网站建设门户上海百度首页优化
  • 网站优化与seo的区别app推广拉新渠道
  • 商务网站开发流程有三个阶段销售外包公司
  • 平阳住房和城乡规划建设局网站搜索优化的培训免费咨询
  • 广州市官网网站建设平台网站视频
  • 万网ecs如何上传网站合肥网络公司seo建站
  • 网站开发 参考文献南京今日新闻头条
  • 暗网做网站图片优化软件
  • 最近新冠疫情最新动态重庆seo网页优化