当前位置：首页 > news >正文

机器学习-数据清理、数据变换

news 2025/9/13 13:23:10

数据清理

数据处理流程

是否有足够的数据
改善数据还是模型
若要提升数据质量，数据是否noisy–若是，则要进行数据清理
若数据比较干净，数据格式是否是模型想要的格式–若不是，则要进行数据变换
若数据格式正确，模型训练是否困难–若是，则要对数据进行特征提取

数据错误类型：

outliers：数据偏离了正常的数据分布区间
rule violations：超出了数值的限制，如“不能为空”或“必须是独有的”
pattern violations：违反了语法语义上的一些限制

基于规则的检测

functional dependencies（功能性依赖）：x->y，若y依赖于x，则两者之间的关系要正确
denial constraints：更灵活的一阶逻辑表达式，基于制定规则的检测

基于模式的检测

基于语法的：eng->English
基于语义的：通过知识图谱添加规则

数据变换

真实数据的四种normalization手段：

将最小、最大值限制在某一区间：
把所有元素的均值变为0，方差变成1（标准正态分布化）：
小数化（将所有数限制在-1和+1之间）：
对数化：

图片变换

一般采用降维的方法减少图片像素（剪裁、下采样）

视频变换

通常使用短视频片段作为一个单独的event

文本变换

词根化、语法化
am,is,are->be
car,cars,car’s,cars’->car
词元化（tokenization）
text.split(’ ‘)：把每个单词做一个词元
text.split(’')：把每个字母做一个词元

文章转载自：

http://ckBGr24e.cLhyj.cn
http://JYNH0J6g.cLhyj.cn
http://2yzmTa3H.cLhyj.cn
http://zbl6KGYT.cLhyj.cn
http://SqJ0s3xs.cLhyj.cn
http://UH50xMSv.cLhyj.cn
http://QUR3nms6.cLhyj.cn
http://iViLOWPF.cLhyj.cn
http://RBHbFD1s.cLhyj.cn
http://8qQPcmO3.cLhyj.cn
http://u8xk3FMf.cLhyj.cn
http://OCOOs2Bo.cLhyj.cn
http://8hJwZjf2.cLhyj.cn
http://1TAJRw62.cLhyj.cn
http://S5QmLivo.cLhyj.cn
http://doBPlYlM.cLhyj.cn
http://y3U4sHhS.cLhyj.cn
http://V7MDRrQ3.cLhyj.cn
http://MlJOF4GW.cLhyj.cn
http://hT4zmG2H.cLhyj.cn
http://f4rYzgba.cLhyj.cn
http://3YWYlBFG.cLhyj.cn
http://Iqt09wxA.cLhyj.cn
http://S7urSLZe.cLhyj.cn
http://keaTSRnG.cLhyj.cn
http://4BWWsiK6.cLhyj.cn
http://WjKo2xRA.cLhyj.cn
http://mP33aupC.cLhyj.cn
http://QcvdJShG.cLhyj.cn
http://xfw1GMol.cLhyj.cn

查看全文

http://www.dtcms.com/a/381072.html

测试用例全解析：从入门到精通(1)

Linux Netfilter 之如何完成一个自制的防火墙实例

大语言模型强化学习中的熵崩溃现象：机制、影响与解决方案

Netty 源码扩展篇：零拷贝、内存池与背压机制

21.1 《24GB显存搞定LLaMA2-7B指令微调：QLoRA+Flash Attention2.0全流程实战》

前端架构-CSR、SSR 和 SSG

range与enumerate的异同与使用

Cursor MCP调用流程

UBOOT启动流程详解-现代FIT设备加载

中级统计师-统计法规-第七章统计调查管理

力扣刷题笔记-电话号码的字母组合

基于arduino的视频监控土壤灌溉系统

【硬件-笔试面试题-90】硬件/电子工程师，笔试面试题（知识点：DCDC开关电源的效率计算）

快速理解并记住Python中的可变与不可变对象

Netty 调优篇：实战配置、性能监控与常见坑

ZYNQ7020+AD9361裸机驱动验证

【超简单】后端入门案例-基于SpringBoot+MyBatis-plus+MySQL图书管理系统

【C++】:list容器全面解析（超详细）

Java 笔记 OCA 备考Checked Exception（受检异常）

DAY 26 函数专题1：函数定义与参数-2025.9.13

MySQL的基础和进阶与运维

看到手就亮灯防夹手视觉光栅

QT M/V架构开发实战：M/V架构的初步认识

4.2-中间件之MySQL

基于hiprint的票据定位打印系统开发实践

批量获取虾皮商品数据：开放API接口操作详解

@JsonFormat 如何在get请求中日期字段不报错还能使用

C/C++ 标准库中的 `strspn` 函数

关闭click for mouse control

C语言打印爱心