当前位置: 首页 > news >正文

机器学习-数据清理、数据变换

数据清理

数据处理流程

  1. 是否有足够的数据
  2. 改善数据还是模型
  3. 若要提升数据质量,数据是否noisy–若是,则要进行数据清理
  4. 若数据比较干净,数据格式是否是模型想要的格式–若不是,则要进行数据变换
  5. 若数据格式正确,模型训练是否困难–若是,则要对数据进行特征提取

数据错误类型:

  • outliers:数据偏离了正常的数据分布区间
  • rule violations:超出了数值的限制,如“不能为空”或“必须是独有的”
  • pattern violations:违反了语法语义上的一些限制

基于规则的检测

  • functional dependencies(功能性依赖):x->y,若y依赖于x,则两者之间的关系要正确
  • denial constraints:更灵活的一阶逻辑表达式,基于制定规则的检测

基于模式的检测

  • 基于语法的:eng->English
  • 基于语义的:通过知识图谱添加规则

数据变换

真实数据的四种normalization手段:

  1. 将最小、最大值限制在某一区间:
    在这里插入图片描述
  2. 把所有元素的均值变为0,方差变成1(标准正态分布化):
    在这里插入图片描述
  3. 小数化(将所有数限制在-1和+1之间):
    在这里插入图片描述
  4. 对数化:
    在这里插入图片描述

图片变换

一般采用降维的方法减少图片像素(剪裁、下采样)

视频变换

通常使用短视频片段作为一个单独的event

文本变换

  1. 词根化、语法化
    am,is,are->be
    car,cars,car’s,cars’->car
  2. 词元化(tokenization)
    text.split(’ ‘):把每个单词做一个词元
    text.split(’'):把每个字母做一个词元

文章转载自:

http://ckBGr24e.cLhyj.cn
http://JYNH0J6g.cLhyj.cn
http://2yzmTa3H.cLhyj.cn
http://zbl6KGYT.cLhyj.cn
http://SqJ0s3xs.cLhyj.cn
http://UH50xMSv.cLhyj.cn
http://QUR3nms6.cLhyj.cn
http://iViLOWPF.cLhyj.cn
http://RBHbFD1s.cLhyj.cn
http://8qQPcmO3.cLhyj.cn
http://u8xk3FMf.cLhyj.cn
http://OCOOs2Bo.cLhyj.cn
http://8hJwZjf2.cLhyj.cn
http://1TAJRw62.cLhyj.cn
http://S5QmLivo.cLhyj.cn
http://doBPlYlM.cLhyj.cn
http://y3U4sHhS.cLhyj.cn
http://V7MDRrQ3.cLhyj.cn
http://MlJOF4GW.cLhyj.cn
http://hT4zmG2H.cLhyj.cn
http://f4rYzgba.cLhyj.cn
http://3YWYlBFG.cLhyj.cn
http://Iqt09wxA.cLhyj.cn
http://S7urSLZe.cLhyj.cn
http://keaTSRnG.cLhyj.cn
http://4BWWsiK6.cLhyj.cn
http://WjKo2xRA.cLhyj.cn
http://mP33aupC.cLhyj.cn
http://QcvdJShG.cLhyj.cn
http://xfw1GMol.cLhyj.cn
http://www.dtcms.com/a/381072.html

相关文章:

  • 测试用例全解析:从入门到精通(1)
  • Linux Netfilter 之 如何完成一个自制的防火墙实例
  • 大语言模型强化学习中的熵崩溃现象:机制、影响与解决方案
  • Netty 源码扩展篇:零拷贝、内存池与背压机制
  • 21.1 《24GB显存搞定LLaMA2-7B指令微调:QLoRA+Flash Attention2.0全流程实战》
  • 前端架构-CSR、SSR 和 SSG
  • range与enumerate的异同与使用
  • Cursor MCP调用流程
  • UBOOT启动流程详解-现代FIT设备加载
  • 中级统计师-统计法规-第七章 统计调查管理
  • 力扣刷题笔记-电话号码的字母组合
  • 基于arduino的视频监控土壤灌溉系统
  • 【硬件-笔试面试题-90】硬件/电子工程师,笔试面试题(知识点:DCDC开关电源的效率计算)
  • 快速理解并记住Python中的可变与不可变对象
  • Netty 调优篇:实战配置、性能监控与常见坑
  • ZYNQ7020+AD9361裸机驱动验证
  • 【超简单】后端入门案例-基于SpringBoot+MyBatis-plus+MySQL图书管理系统
  • 【C++】:list容器全面解析(超详细)
  • Java 笔记 OCA 备考Checked Exception(受检异常)
  • DAY 26 函数专题1:函数定义与参数-2025.9.13
  • MySQL的基础和进阶与运维
  • 看到手就亮灯 防夹手视觉光栅
  • QT M/V架构开发实战:M/V架构的初步认识
  • 4.2-中间件之MySQL
  • 基于hiprint的票据定位打印系统开发实践
  • 批量获取虾皮商品数据:开放API接口操作详解
  • @JsonFormat 如何在get请求中日期字段不报错还能使用
  • C/C++ 标准库中的 `strspn` 函数
  • 关闭click for mouse control
  • C语言打印爱心