当前位置：首页 > wzjs >正文

网站建设与维护怎么学平台开发

wzjs 2025/8/20 21:18:37

网站建设与维护怎么学,平台开发,深圳公司网站建设服务,伦教网站设计目录 1.多分类--定义 2.多分类--原理 2.1.OVO（一对一） 2.1.1.手写代码 2.1.2.调包侠 2.2.OVR（一对多） 2.2.1.手写代码 2.2.2.调包侠 OVO和OVR的区别 2.3.Error Correcting纠错编码（多对多） 3.多分…

1.多分类--定义

2.多分类--原理

2.1.OVO（一对一）

2.1.1.手写代码

2.1.2.调包侠

2.2.OVR（一对多）

2.2.1.手写代码

2.2.2.调包侠

OVO和OVR的区别

2.3.Error Correcting纠错编码（多对多）

3.多分类--实战

1.数据导入

2.数据可视化

3.数据合并

4.数据处理

5.测试--机器学习

6.测试-- 多层感知机（MLP）

7.测试--卷积神经网络（CNN）

1.多分类--定义

单标签多分类问题其实是指待预测的label标签只有一个，但是label标签的取值可能有多种情况；直白来讲就是每个实例的可能类别有K种。

常见算法：Softmax、KNN、决策树等。

2.多分类--原理

在实际的工作中，如果是一个多分类的问题，我们可以将这个待求解的问题转换为二分类算法的延伸，即将多分类任务拆分为若干个二分类任务求解，具体的策略如下：

One-Versus-One(ovo)：一对一
One-Versus-All / One-Versus-the-Rest(ova/ovr)：一对多
Error Correcting Output codes(纠错码机制)：多对多

2.1.OVO（一对一）

将K个类别中的两两类别数据进行组合，然后使用组合后的数据训练出来一个模型，从而产生K(K−1)/2个分类器，将这些分类器的结果进行融合，并将分类器的预测结果使用多数投票的方式输出最终的预测结果值。

2.1.1.手写代码

def ovo(datas,estimator):'''datas[:,-1]为目标属性'''import numpy as npY = datas[:,-1]X = datas[:,:-1]y_value = np.unique(Y)#计算类别数目k = len(y_value)modles = []#将K个类别中的两两类别数据进行组合,并对y值进行处理for i in range(k-1):c_i = y_value[i]for j in range(i+1,k):c_j = y_value[j]new_datas = []for x,y in zip(X,Y):if y == c_i or y == c_j:new_datas.append(np.hstack((x,np.array([2*float(y==c_i)-1]))))new_datas = np.array(new_datas)algo = estimator()modle = algo.fit(new_datas)modles.append([(c_i,c_j),modle])return modles
def argmaxcount(seq):'''计算序列中出现次数最多元素''''''超极简单的方法'''# from collections import Counter# return Counter(seq).values[0]'''稍微复杂的'''# dict_num = {}# for item in seq:#     if item not in dict_num.keys():#         dict_num[item] = seq.count(item)# # 排序# import operator# sorted(dict_num.items(), key=operator.itemgetter(1))'''字典推导'''dict_num = dict_num = {i: seq.count(i) for i in set(seq)}def ovo_predict(X,modles):import operatorresult = []for x in X:pre = []for cls,modle in modles:pre.append(cls[0] if modle.predict(x) else cls[1])d = {i: pre.count(i) for i in set(pre)} #利用集合的特性去重result.append(sorted(d.items(),key=operator.itemgetter(1))[-1][0])return result

2.1.2.调包侠

class sklearn.multiclass.OneVsOneClassifier(estimator, n_jobs=1)

estimator：

类型：对象
这是用于一对一比较的基估计器对象，它必须是一个二分类器。换句话说，estimator是你在每个类别对上训练的实际模型。例如，你可以使用支持向量机(SVM)、逻辑回归、决策树等。

n_jobs：

类型：int, 可选，默认为1
这个参数指定了用于拟合和预测的CPU核心数量。如果n_jobs设为-1，那么所有的CPU核心都会被使用。如果设置为1，则不进行并行计算。如果设置为大于1的整数，那么就是在指定使用的核心数。这个参数对于大型数据集和复杂模型特别有用，因为它可以显著减少计算时间。

from sklearn import datasets
from sklearn.multiclass import OneVsOneClassifier
from sklearn.svm import LinearSVC
from sklearn.neighbors import KNeighborsClassifier# 加载数据
iris = datasets.load_iris()# 获取X和y
X, y = iris.data, iris.target
print("样本数量:%d, 特征数量:%d" % X.shape)
# 设置为3，只是为了增加类别，看一下ovo和ovr的区别
y[-1] = 3# 模型构建
clf = OneVsOneClassifier(LinearSVC(random_state=0))
# clf = OneVsOneClassifier(KNeighborsClassifier())
# 模型训练
clf.fit(X, y)# 输出预测结果值
print(clf.predict(X))
print("效果:{}".format(clf.score(X, y)))# 模型属性输出
k = 1
for item in clf.estimators_:print("第%d个模型:" % k, end="")print(item)k += 1
print(clf.classes_)

2.2.OVR（一对多）

原理：

将每一个类别作为正例，其它剩余的样例作为反例分别来训练K 个模型；
在预测的时候，如果在这K个模型中，只有一个模型输出为正例，那么最终的预测结果就是属于该分类器的这个类别；
如果产生多个正例，那么则可以选择根据分类器的置信度作为指标，来选择置信度最大的分类器作为最终结果，常见置信度：精确度、召回率。

2.2.1.手写代码

def ovr(datas,estimator):'''datas[:,-1]为目标属性'''import numpy as npY = datas[:,-1]X = datas[:,:-1]y_value = np.unique(Y)#计算类别数目k = len(y_value)modles = []#准备K个模型的训练数据,并对y值进行处理for i in range(k):c_i = y_value[i]new_datas = []for x,y in zip(X,Y):new_datas.append(np.hstack((x,np.array([2*float(y==c_i)-1]))))new_datas = np.array(new_datas)algo = estimator()modle = algo.fit(new_datas)confidence = modle.score(new_datas) #计算置信度modles.append([(c_i,confidence),modle])return modlesdef ovr_predict(X,modles):import operatorresult = []for x in X:pre = []cls_confi = []for cls,modle in modles:cls_confi.append(cls)pre.append(modle.predict(x))pre_res = []for c,p in zip(cls_confi,pre):if p == 1:pre_res.append(c)if not pre_res:pre_res = cls_confiresult.append(sorted(pre_res,key=operator.itemgetter(1))[-1][0])return result

2.2.2.调包侠

sklearn.multiclass.OneVsRestClassifier

参数同上。

from sklearn import datasets
from sklearn.multiclass import OneVsRestClassifier
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score# 数据获取
iris = datasets.load_iris()
X, y = iris.data, iris.target
print("样本数量:%d, 特征数量:%d" % X.shape)
# 设置为3，只是为了增加类别，看一下ovo和ovr的区别
y[-1] = 3# 模型创建
clf = OneVsRestClassifier(LinearSVC(random_state=0))
# 模型构建
clf.fit(X, y)# 预测结果输出
# 输出预测结果值
print(clf.predict(X))
print("效果:{}".format(clf.score(X, y)))# 模型属性输出
k = 1
for item in clf.estimators_:print("第%d个模型:" % k, end="")print(item)k += 1
print(clf.classes_)

OVO和OVR的区别

2.3.Error Correcting纠错编码（多对多）

原理：将模型构建应用分为两个阶段：编码阶段和解码阶段。

编码阶段：对K个类别中进行M次划分，每次划分将一部分数据分为正类，一部分数据分为反类，每次划分都构建出来一个模型，模型的结果是在空间中对于每个类别都定义了一个点；
解码阶段中使用训练出来的模型对测试样例进行预测，将预测样本对应的点和类别之间的点求距离，选择距离最近的类别作为最终的预测类别。

class sklearn.multiclass.OutputCodeClassifier(estimator, code_size=1.5, random_state=None, n_jobs=1)

estimator：

类型：对象
这是用于训练的基本估计器对象，它必须是一个二分类器。这个估计器将被用于训练多个二分类器，每个分类器对应于编码中的一个位。

code_size：

类型：浮点数，可选，默认为 1.5
这个参数控制了输出代码的密度。较小的值意味着更少的二分类器将被训练，而较大的值则意味着更多的二分类器将被训练。代码的大小会影响分类器的性能和计算成本。

random_state：

类型：int, RandomState 实例或 None，可选，默认为 None
控制随机数生成器的种子，用于输出代码的生成。在需要可重复的结果时，这个参数很有用。

n_jobs：

类型：int, 可选，默认为 1
这个参数指定了用于拟合和预测的 CPU 核心数量。

from sklearn import datasets
from sklearn.multiclass import OutputCodeClassifier
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score# 数据获取
iris = datasets.load_iris()
X, y = iris.data, iris.target
print("样本数量:%d, 特征数量:%d" % X.shape)# 模型对象创建
# code_size: 指定最终使用多少个子模型，实际的子模型的数量=int(code_size*label_number)
# code_size设置为1，等价于ovr子模型个数；
# 设置为0~1, 那相当于使用比较少的数据划分，效果比ovr差; 
# 设置为大于1的值，那么相当于存在部分模型冗余的情况
clf = OutputCodeClassifier(LinearSVC(random_state=0), code_size=30, random_state=0)
# 模型构建
clf.fit(X, y)# 输出预测结果值
print(clf.predict(X))
print("准确率:%.3f" % accuracy_score(y, clf.predict(X)))# 模型属性输出
k = 1
for item in clf.estimators_:print("第%d个模型:" % k, end="")print(item)k += 1
print(clf.classes_)

3.多分类--实战

DDoS 2019 | Datasets | Research | Canadian Institute for Cybersecurity | UNB （页面最下端）是某DDoS攻击产生的数据，分为正常和异常。CIC-DDOS2019数据的分类。

请基于该数据设计并实现检测DDoS攻击的算法模型。

文件名	攻击类型	说明
.~lock.UDPLag.csv#	UDP泛洪攻击	记录了UDP协议的延迟数据，可能用于分析UDP泛洪攻击。
LDAP	LDAP放大攻击	包含LDAP协议相关的数据，可能用于检测LDAP放大攻击。
MSSQL	SQL注入攻击	包含MSSQL数据库相关的数据，可能用于检测针对SQL服务器的攻击。
NetBIOS	NetBIOS放大攻击	包含NetBIOS协议相关的数据，可能用于检测NetBIOS放大攻击。
Portmap	端口扫描/映射攻击	包含端口映射相关的数据，可能用于检测端口扫描或映射攻击。
Syn	SYN洪水攻击	包含TCP SYN包相关的数据，用于分析SYN洪水攻击。
UDP	UDP泛洪攻击	包含UDP协议相关的数据，可能用于检测UDP泛洪攻击。
udplog	UDP泛洪攻击日志	记录了与UDP泛洪攻击相关的数据，可能用于攻击分析和检测。