当前位置：首页 > news >正文

机器学习1

news 2025/7/11 6:16:26

一、机器学习介绍与定义

1、定义

机器学习（Machine Learning）本质上就是让计算机自己在数据中学习规律，并根据所得到的规律对未来数据进行预测。

机器学习包括如聚类、分类、决策树、贝叶斯、神经网络、深度学习（Deep Learning）等算法。

机器学习的基本思路是模仿人类学习行为的过程，如我们在现实中的新问题一般是通过经验归纳，总结规律，从而预测未来的过程。

2、发展历史

从上世纪50年代的图灵测试提出、塞缪尔开发的西洋跳棋程序，标志着机器学习正式进入发展期。

60年代中到70年代末的发展几乎停滞。

80年代使用神经网络反向传播（BP）算法训练的多参数线性规划（MLP）理念的提出将机器学习带入复兴时期。

90年代提出的“决策树”（ID3算法），再到后来的支持向量机（SVM）算法，将机器学习从知识驱动转变为数据驱动的思路。

21世纪初Hinton提出深度学习（Deep Learning），使得机器学习研究又从低迷进入蓬勃发展期。

从2012年开始，随着算力提升和海量训练样本的支持，深度学习（Deep Learning）成为机器学习研究热点，并带动了产业界的广泛应用。

3、分类

机器学习经过几十年的发展，衍生出了很多种分类方法，这里按学习模式的不同，可分为监督学习、半监督学习、无监督学习和强化学习。

3.1监督学习

监督学习（Supervised Learning）是从有标签的训练数据中学习模型，然后对某个给定的新数据利用模型预测它的标签。如果分类标签精确度越高，则学习模型准确度越高，预测结果越精确。

监督学习主要用于回归和分类。

常见的监督学习的回归算法有线性回归、回归树、K近邻、Adaboost、神经网络等。

常见的监督学习的分类算法有朴素贝叶斯、决策树、SVM、逻辑回归、K近邻、Adaboost、神经网络等。

3.2半监督学习

半监督学习（Semi-Supervised Learning）是利用少量标注数据和大量无标注数据进行学习的模式。

半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类。

常见的半监督学习算法有Pseudo-Label、Π-Model、Temporal Ensembling、Mean Teacher、VAT、UDA、MixMatch、ReMixMatch、FixMatch等。

3.3无监督学习

无监督学习（Unsupervised Learning）是从未标注数据中寻找隐含结构的过程。

无监督学习主要用于关联分析、聚类和降维。

常见的无监督学习算法有稀疏自编码（Sparse Auto-Encoder）、主成分分析（Principal Component Analysis, PCA）、K-Means算法（K均值算法）、DBSCAN算法（Density-Based Spatial Clustering of Applications with Noise）、最大期望算法（Expectation-Maximization algorithm, EM）等。

3.4强化学习

强化学习（Reinforcement Learning）类似于监督学习，但未使用样本数据进行训练，是是通过不断试错进行学习的模式。

在强化学习中，有两个可以进行交互的对象：智能体（Agnet）和环境（Environment），还有四个核心要素：策略（Policy）、回报函数（收益信号，Reward Function）、价值函数（Value Function）和环境模型（Environment Model），其中环境模型是可选的。

强化学习（Reinforcement Learning）类似于监督学习，但未使用样本数据进行训练，是是通过不断试错进行学习的模式。

二、scikit-learn工具介绍

参考以下安装教程：https://www.sklearncn.cn/62/

三、数据集

数据量小，数据在sklearn库的本地，只要安装了sklearn，不用上网就可以获取

数据量大，数据只能通过网络获取

1、sklearn获取现实世界数据集

(1)所有现实世界数据，通过网络才能下载后，默认保存的目录可以使用下面api获取。实际上就是保存到home目录

from sklearn import datasets
datasets.get_data_home() #查看数据集默认存放的位置

(2)下载时，有可能回为网络问题而出问题，要“小心”的解决网络问题，不可言…..

(3)第一次下载会保存的硬盘中，如果第二次下载，因为硬盘中已经保存有了，所以不会再次下载就直接加载成功了。

2、本地CSV数据

2.1创建csv文件

方式1：打开计事本，写出如下数据，数据之间使用英文下的逗号, 保存文件后把后缀名改为csv

csv文件可以使用excel打开

方式2：创建excel 文件, 填写数据，以csv为后缀保存文件

2.2pandas加载csv

使用pandas的read_csv(“文件路径”)函数可以加载csv文件，得到的结果为数据的DataFrame形式

pd.read_csv("src/ss.csv")

3、数据集的划分

sklearn.model_selection.train_test_split(*arrays，**options)
参数
(1) *array
   这里用于接收1到多个"列表、numpy数组、稀疏矩阵或padas中的DataFrame"。
(2) **options，重要的关键字参数有：
    test_size 值为0.0到1.0的小数，表示划分后测试集占的比例
random_state 值为任意整数，表示随机种子，使用相同的随机种子对相同的数据集多次划分结果是相同的。否则多半不同
strxxxx 分层划分,填y
2 返回值说明
   返回值为列表list, 列表长度与形参array接收到的参数数量相关联, 形参array接收到的是什么类型，list中对应被划分出来的两部分就是什么类型

四、特征工程

1、概念

特征工程:就是对特征进行相关的处理

一般使用pandas来进行数据清洗和数据处理、使用sklearn来进行特征工程

特征工程是将任意数据(如文本或图像)转换为可用于机器学习的数字特征,比如:字典特征提取(特征离散化)、文本特征提取、图像特征提取。

特征工程步骤为：

特征提取，如果不是像dataframe那样的数据，要进行特征提取，比如字典特征提取，文本特征提取
无量纲化(预处理)
- 归一化
- 标准化
降维
- 底方差过滤特征选择
- 主成分分析-PCA降维

2、API

实例化转换器对象，转换器类有很多，都是Transformer的子类, 常用的子类有:

DictVectorizer     字典特征提取
CountVectorizer    文本特征提取
TfidfVectorizer    TF-IDF文本特征词的重要程度特征提取
MinMaxScaler        归一化
StandardScaler        标准化
VarianceThreshold    底方差过滤降维
PCA                 主成分分析降维

转换器对象调用fit_transform()进行转换, 其中fit用于计算数据，transform进行最终转换

fit_transform()可以使用fit()和transform()代替

data_new = transfer.fit_transform(data)
可写成
transfer.fit(data)
data_new = transfer.transform(data)

3、DictVectorizer字典列表特征提取

稀疏矩阵：一个矩阵中大部分元素为零，只有少数元素是非零矩阵

三元组表：三元组表就是一种稀疏矩阵类型数据,存储非零元素的行索引、列索引和值 (行,列) 数据

稠密矩阵：矩阵中的大部分元素都是非零的，存储通常采用标准的二维数组形式

API

创建转换器对象

sklearn.feature_extraction.DictVectorizer(sparse=True)

参数：

sparse=True返回类型为csr_matrix的稀疏矩阵

sparse=False表示返回的是数组,数组可以调用.toarray()方法将稀疏矩阵转换为数组

转换器对象：

转换器对象调用fit_transform(data)函数，参数data为一维字典数组或一维字典列表,返回转化后的矩阵或数组

转换器对象get_feature_names_out()方法获取特征名

# 字典列表向量化

data=[{'city':'北京','temperature':100},

{'city':'上海','temperature':60},

{'city':'深圳','temperature':30}]

# 创建一个字典列表特征提取工具

tool=DictVectorizer(sparse=True) #sparse=True 表示返回稀疏矩阵（三元组表）

# 字典列表特征提取

data=tool.fit_transform(data)

print(data) #三元组表

print(data.toarray()) #三元组表转成矩阵

print(tool.feature_names_)

4、CountVectorizer文本特征提取

API

sklearn.feature_extraction.text.CountVectorizer

构造函数关键字参数stop_words，值为list，表示词的黑名单(不提取的词)

fit_transform函数的返回值为稀疏矩阵

英文

from sklearn.feature_extraction.text import CountVectorizer

# 词频特征提取

data=["stu is well, stu is great", "You like stu"]

cv=CountVectorizer() # 创建一个词频特征提取器

data=cv.fit_transform(data) # 词频特征提取(转换)

print(data.toarray())#三元组表转数组

print(cv.get_feature_names_out())#查看每个特征的特征名

中文

# 中文词频特征提取（中文必须有空格来分词，否则会把一句话当做一个特征）

data = ["教育学会会长期间坚定支持民办教育事业！","热忱关心扶持民办学校发展","事业做出重大贡献！"]

cv=CountVectorizer() # 创建一个词频特征提取器

data=cv.fit_transform(data) # 词频特征提取(转换)

print(data.toarray())#三元组表转数组

print(cv.get_feature_names_out())#查看每个特征的特征名

5、TfidfVectorizer TF-IDF文本特征词的重要程度特征提取

1、算法

词频(Term Frequency, TF), 表示一个词在当前篇文章中的重要性

逆文档频率(Inverse Document Frequency, IDF), 反映了词在整个文档集合中的稀有程度

2、API

sklearn.feature_extraction.text.TfidfVectorizer()

构造函数关键字参数stop_words，表示词特征黑名单

fit_transform函数的返回值为稀疏矩阵

3、示例

# 稀有度（词语的重要程度）特征提取

from sklearn.feature_extraction.text import TfidfVectorizer

import jieba

def fenci(str1):

return " ".join(list(jieba.cut(str1)))

data = ["教育学会会长期间坚定支持民办教育事业！","热忱关心扶持民办学校发展","事业做出重大贡献！"]

data=[fenci(el) for el in data]

tool=TfidfVectorizer() #创建工具

tf_idf=tool.fit_transform(data)#转换

print(tf_idf.toarray())

print(tool.get_feature_names_out())

import numpy as np

from sklearn.preprocessing import normalize

# 手动实现tf-idf

def fenci(str1):

return " ".join(list(jieba.cut(str1)))

data = ["教育学会会长期间坚定支持民办教育事业！","热忱关心扶持民办学校发展","事业做出重大贡献！"]

data=[fenci(el) for el in data]

def if_idf(x):

cv=CountVectorizer()

tf=cv.fit_transform(x).toarray()

# print(tf)

idf=np.log((len(tf)+1)/(np.sum(tf!=0,axis=0)+1))+1

print(idf)

tf_idf=tf*idf

tf_idf=normalize(tf_idf,norm='l2',axis=1)

print(tf_idf)

if_idf(data)

6、无量纲化-预处理

6.1MinMaxScaler归一化

公式

API

sklearn.preprocessing.MinMaxScaler(feature_range)

参数:feature_range=(0,1) 归一化后的值域,可以自己设定

fit_transform函数归一化的原始数据类型可以是list、DataFrame和ndarray, 不可以是稀疏矩阵

fit_transform函数的返回值为ndarray

from sklearn.preprocessing import MinMaxScaler

# 最大值最小值归一化

x=[[10,2],

[8,3],

[3,7],

[23,4]]

tool=MinMaxScaler(feature_range=(10,20))

x=tool.fit_transform(x)

print(x)

6.2normalize归一化

1、L1归一化：绝对值相加作为分母，特征值作为分子

2、L2归一化：平方相加作为分母，特征值作为分子

3、max归一化：max作为分母，特征值作为分子

API

from sklearn.preprocessing import normalize
normalize(data, norm='l2', axis=1)
#data是要归一化的数据
#norm是使用那种归一化:"l1" "l2" "max
#axis=0是列 axis=1是行

# normalize归一化

from sklearn.preprocessing import normalize

x=[[100,2],

[800,3],

[300,7],

[2300,4]]

x=normalize(x,norm='max',axis=0)

print(x)

6.3StandardScaler标准化

其中，z是转换后的数值，x是原始数据的值，μ是该特征的均值，σ是该特征的标准差

API

sklearn.preprocessing.StandardScale

与MinMaxScaler一样，原始数据类型可以是list、DataFrame和ndarray

fit_transform函数的返回值为ndarray, 归一化后得到的数据类型都是ndarray

# 均值方差归一化

from sklearn.preprocessing import StandardScaler

x=[[100,2],

[800,3],

[300,7],

[2300,4]]

tool=StandardScaler()

x=tool.fit_transform(x)

print(x)

# fir_transform fit transform

from sklearn.preprocessing import StandardScaler

x=[[100,2],

[800,3],

[300,7],

[2300,4]]

tool=StandardScaler()

tool.fit(x)#训练（把x的均值和方差统计出来保存下来）

# print(tool.mean_)

# print(tool.var_)

# print(tool.scale_)

tool.transform(x)#转换x（把x进行标准化）

x2=[[1,2],

[8,3],

[30,7],

[23,4]]

x2=tool.transform(x2)#使用训练过的x的均值和方差来转换x2中的数据

print(x2)

x3=[[1,2]]

tool.fit_transform(x2)#计算x的均值和方差，然后进行标准化，返回x2

tool.transform(x3)#使用x2的均值和方差转化x3

7、特征降维

实际数据中,有时候特征很多,会增加计算量,降维就是去掉一些特征,或者转化多个特征为少量个特征

特征降维其目的:是减少数据集的维度，同时尽可能保留数据的重要信息。

特征降维的方式:

特征选择
- 从原始特征集中挑选出最相关的特征
主成份分析(PCA)
- 主成分分析就是把之前的特征通过一系列数学计算，形成新的特征，新的特征数量会小于之前特征数量

7.1特征选择

1、VarianceThreshold 低方差过滤特征选择

Filter(过滤式): 主要探究特征本身特点，特征与特征、特征与目标值之间关联
- 方差选择法: 低方差特征过滤
  
  如果一个特征的方差很小，说明这个特征的值在样本中几乎相同或变化不大，包含的信息量很少，模型很难通过该特征区分不同的对象,比如区分甜瓜子和咸瓜子还是蒜香瓜子,如果有一个特征是长度,这个特征相差不大可以去掉。
  1. 计算方差：对于每个特征，计算其在训练集中的方差(每个样本值与均值之差的平方,在求平均)。
  2. 设定阈值：选择一个方差阈值，任何低于这个阈值的特征都将被视为低方差特征。
  3. 过滤特征：移除所有方差低于设定阈值的特征

from sklearn.feature_selection import VarianceThreshold

tool=VarianceThreshold(threshold=1.5)

x=[[10,2],

[11,6],

[10,8],

[10,10],

[10,19],

[10,22],

[10,28]]

x=tool.fit_transform(x)

print(x)

2、皮尔逊相关系数（Pearson correlation coefficient)是一种度量两个变量之间线性相关性的统计量。它提供了两个变量间关系的方向（正相关或负相关）和强度的信息。皮尔逊相关系数的取值范围是 [−1,1]，其中：

\rho=1 表示完全正相关，即随着一个变量的增加，另一个变量也线性增加。
\rho=-1 表示完全负相关，即随着一个变量的增加，另一个变量线性减少。
\rho=0 表示两个变量之间不存在线性关系。

API

scipy.stats.personr(x, y) 计算两特征之间的相关性

返回对象有两个属性:

statistic皮尔逊相关系数[-1,1]

pvalue零假设(了解),统计上评估两个变量之间的相关性,越小越相关

# 皮尔逊相关系数

from scipy.stats import pearsonr

x=[1,2,3,4,5]

y=[10,20,30,40,50]

res=pearsonr(x,y)

print(res)

print(res.statistic)#相关系数

print(res.pvalue)#p值越小越好

7.2主成分分析PCA

PCA的核心目标是从原始特征空间中找到一个新的坐标系统，使得数据在新坐标轴上的投影能够最大程度地保留数据的方差，同时减少数据的维度。

API

from sklearn.decomposition import PCA

PCA(n_components=None)

n_components:
- 实参为小数时：表示降维后保留百分之多少的信息
- 实参为整数时：表示减少到多少特征

# PCA特征降维

from sklearn.decomposition import PCA

data=[[2,8,4,5],

[6,3,0,8],

[5,4,9,1]]

# pca=PCA(n_components=2) #降维到2维保留2个特征

pca=PCA(n_components=0.5) #信息保留50% 但不确定会把特征变成几个

data=pca.fit_transform(data)

print(data)

五、sklearn机器学习概述

获取数据、数据处理、特征工程后，就可以交给预估器进行机器学习，使用测试集对模型进行评估

# 引入数据集

from sklearn.datasets import load_iris

# 引入KNN模型

from sklearn.neighbors import KNeighborsClassifier

# 引入标准化工具

from sklearn.preprocessing import StandardScaler

# 引入数据集划分工具

from sklearn.model_selection import train_test_split

import numpy as np

import joblib

# 训练函数

def train():

# 加载数据

iris=load_iris() # 加载鸢尾花数据集

x=iris.data # 鸢尾花的特征数据（x）

y=iris.target # 鸢尾花的标签数据（y）

# 数据集划分

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=22)

# 把训练数据进行数据标准化

transfer=StandardScaler()

x_train=transfer.fit_transform(x_train)

# 创建knn算法模型

model=KNeighborsClassifier(n_neighbors=5)

# 使用训练集训练模型

model.fit(x_train,y_train)

# 使用测试集数据对模型进行评估

x_test=transfer.transform(x_test) # 使用训练集中的均值和标准差来转换测试集的数据

score=model.score(x_test,y_test) # 模型自带的评估函数

print("准确率：",score)

# 自己写一个评估函数

y_pred=model.predict(x_test)

score=np.sum(y_pred==y_test)/len(y_test)

print("准确率：",score)

# 保存模型

if score>0.9:

joblib.dump(model,"./src/model/knnmodel.pkl")

joblib.dump(transfer,"./src/model/transfer.pkl")

else:

print("模型效果不好")

# 推理函数

def detect():

# 加载模型

model=joblib.load("./src/model/knnmodel.pkl")

transfer=joblib.load("./src/model/transfer.pkl")

# 新数据去做推理

x_new=[[1,2,3,4],

[2.5,4.5,2.5,2.5]]

x_new=transfer.transform(x_new)

y_new=model.predict(x_new)

print("新数据预测结果",y_new)

if __name__=="__main__":

train()

detect()

六、KNN算法-分类

1、样本距离判断

明可夫斯基距离

欧氏距离

曼哈顿距离（街道距离）

2、KNN算法原理

K-近邻算法（K-Nearest Neighbors，简称KNN）,根据K个邻居样本的类别来判断当前样本的类别;

如果一个样本在特征空间中的k个最相似(最邻近)样本中的大多数属于某个类别，则该类本也属于这个类别

3、缺点

对于大规模数据集，计算量大，因为需要计算测试样本与所有训练样本的距离。

对于高维数据，距离度量可能变得不那么有意义，这就是所谓的“维度灾难”

需要选择合适的k值和距离度量，这可能需要一些实验和调整

4、API

class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, algorithm='auto'）

参数:
(1)n_neighbors:
       int, default=5, 默认情况下用于kneighbors查询的近邻数，就是K
(2)algorithm:
   {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, default=’auto’。找到近邻的方式，注意不是计算距离       的方式，与机器学习算法没有什么关系，开发中请使用默认值'auto'
方法:
(1) fit(x， y)
使用X作为训练数据和y作为目标数据
(2) predict(X)   预测提供的数据，得到预测数据

5、代码

from sklearn.neighbors import KNeighborsClassifier

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

import numpy as np

x,y=load_iris(return_X_y=True)

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=0)

# 创建KNN模型

model=KNeighborsClassifier(n_neighbors=7)

# 训练模型

model.fit(x_train,y_train)

# 预测

y_predict=model.predict(x_test)

print(y_predict)

print(y_test)

print(y_predict==y_test)

# 评估

score=np.sum(y_predict==y_test)/len(y_test)#自己写

print(score)

score=model.score(x_test,y_test)#sklearn自带

print(score)

x_new=[[5.1,3.5,1.4,0.2]]

y_new=model.predict(x_new)

print(y_new)

七、模型选择与调优

1、交叉验证

1.1保留交叉验证HoldOut

HoldOut Cross-validation（Train-Test Split）

在这种交叉验证技术中，整个数据集被随机地划分为训练集和验证集。根据经验法则，整个数据集的近70%被用作训练集，其余30%被用作验证集。也就是我们最常使用的，直接划分数据集的方法。

优点：很简单很容易执行。

缺点1：不适用于不平衡的数据集。假设我们有一个不平衡的数据集，有0类和1类。假设80%的数据属于 “0 “类，其余20%的数据属于 “1 “类。这种情况下，训练集的大小为80%，测试数据的大小为数据集的20%。可能发生的情况是，所有80%的 “0 “类数据都在训练集中，而所有 “1 “类数据都在测试集中。因此，我们的模型将不能很好地概括我们的测试数据，因为它之前没有见过 “1 “类的数据。

缺点2：一大块数据被剥夺了训练模型的机会。

在小数据集的情况下，有一部分数据将被保留下来用于测试模型，这些数据可能具有重要的特征，而我们的模型可能会因为没有在这些数据上进行训练而错过。

frome sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

iris=load_iris()

x=iris.data

y=iris.target

# Hold-out 保留交叉验证

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=22)

# x_train y_train 就是训练集

# x_test y_test 就是测试集

1.2K-折交叉验证（K-fold）

（K-fold Cross Validation，记为K-CV或K-fold）

K-Fold交叉验证技术中，整个数据集被划分为K个大小相同的部分。每个分区被称为一个”Fold”。所以我们有K个部分，我们称之为K-Fold。一个Fold被用作验证集，其余的K-1个Fold被用作训练集。

该技术重复K次，直到每个Fold都被用作验证集，其余的作为训练集。

模型的最终准确度是通过取k个模型验证数据的平均准确度来计算的。

from sklearn.datasets import load_iris

from sklearn.model_selection import KFold

# 加载数据集

iris=load_iris()

x=iris.data

y=iris.target

# K-Fold k折交叉验证

kf=KFold(n_splits=5)

index=kf.split(x,y)

for train_index,test_index in index:

x_train,x_test=x[train_index],x[test_index]

y_train,y_test=y[train_index],y[test_index]

print(y_test)

1.3分层K-折交叉验证Stratified K-fold

Stratified k-fold cross validation,

K-折交叉验证的变种，分层的意思是说在每一折中都保持着原始数据中各个类别的比例关系，比如说：原始数据有3类，比例为1:2:1，采用3折分层交叉验证，那么划分的3折中，每一折中的数据类别保持着1:2:1的比例，这样的验证结果更加可信。

from sklearn.datasets import load_iris

from sklearn.model_selection import StratifiedKFold

# 加载数据

iris = load_iris()

x = iris.data

y = iris.target

# SK-Fold 分层K折交叉验证

kf=StratifiedKFold(n_splits=5)

index=kf.split(x,y)

for train_index,test_index in index:

x_train,x_test=x[train_index],x[test_index]

y_train,y_test=y[train_index],y[test_index]

print(y_test)

break

1.4其他验证

去除p交叉验证)
留一交叉验证）
蒙特卡罗交叉验证
时间序列交叉验证

2、超参数搜索

超参数搜索也叫网格搜索(Grid Search)

比如在KNN算法中，k是一个可以人为设置的参数，所以就是一个超参数。网格搜索能自动的帮助我们找到最好的超参数值。

from sklearn.neighbors import KNeighborsClassifier

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

import numpy as np

from sklearn.model_selection import GridSearchCV

x,y=load_iris(return_X_y=True)

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=0)

# 创建KNN模型

KNN_model=KNeighborsClassifier(n_neighbors=7)

model=GridSearchCV(KNN_model,param_grid={"n_neighbors":[1,3,5,7,9]})

transfer=StandardScaler()

x_train=transfer.fit_transform(x_train)

x_test=transfer.transform(x_test)

# 训练模型

model.fit(x_train,y_train)

print("最佳参数",model.best_params_)

print("最佳结果",model.best_score_)

print("最佳模型",model.best_estimator_)

y_pred=model.best_estimator_.predict([[1,2,3,4]])

print("预测值：",y_pred)

print("信息",model.cv_results_)

print("最佳下标",model.best_index_)