当前位置：首页 > news >正文

怎样做网站首页网站域名注册申请

news 2025/11/2 16:28:25

怎样做网站首页,网站域名注册申请,郑州上海做网站的公司,手机网站建站视频教程总结缩放(预处理)：机器学习的一些算法（如神经网络、SVM）对数据缩放非常敏感。通常的做法是对特征进行调节，使数据表示更适合与这些算法。PCA：主成分分析（principal component analysis,PCA）是…

总结

缩放(预处理)：机器学习的一些算法（如神经网络、SVM）对数据缩放非常敏感。通常的做法是对特征进行调节，使数据表示更适合与这些算法。
PCA：主成分分析（principal component analysis,PCA）是一种旋转数据集的方法，旋转后的特征在统计上不相关。
NMF：非负矩阵分解（non-negative matrix factorization，NMF）目的在于提取有用的特征。
t-SNE：流形学习算法主要用于可视化，因此很少用来生成两个以上的新特征。
k均值聚类：无监督分类算法中的最简单的一种，将每个数据点分配给最近的簇中心，然后将每个簇中心设置为所分配的所有数据点的平均值。
凝聚聚类：指的是许多基于相同原则构建的聚类算法，算法首先声明每个点是自己的簇，然后合并两个最相似的簇，直到满足某种停止准则为止。
DBSCAN：不需要用用先验的设置簇的个数，可以划分有复杂形状的簇，找出不属于任何簇的点。

预处理与缩放

StandardScaler：确保每个特征平均值为0，方差为1，使所有特征都位于同一量级
RobusScaler：工作原理与StandardScaler类似，确保每个特性的统计属性都位于同一范围
MinMaxScaler：移动数据，使所有数据都刚好位于0到1之间。
Normalizer：对每个个数据点进行缩放，使得特征向量的欧式长于等于1。（它将数据点投射到半径为1的圆上，这意味这每个数据点的缩放比都不相同。如果只有数据方向重要，而特征向量的长度无关紧要，那么通常用这种所方式归一化）

导入库位置

上面几个缩放类的定义在sklearn.preprocessing模块中

from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import RobusScaler
from sklearn.preprocessing import Normalizer

用法

from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
## 可以使用fit_transform代替fit、transform，一步到位
# X_train_scaled = scaler.fit_transform(X_train)

注意：训练、测试都使用缩放后的数据。

降维、特征提取与流行学习

导入库位置

# PCA
from sklearn.decomposition import PCA
# NMF
from sklearn.decomposition import NMF
#t-SNE
from sklearn.manifold import TSNE

PCA

PCA 是一种无监督方法，在寻找旋转方向时没有用到任何类别信息。它只是观察数据中的相关性。

关键参数：

n_components：指定想要保留的主成分个数
whiten：boolen类型，whiten=True表示开启白化处理，白化的目的就是降低输入的冗余性。

经过提取后的主成分通常不容易理解（因为融合了多个原始特征）。

pca = PCA(n_components=2)
pca.fit(X_scaled)
X_pca = pca.transform(X_scaled)
print(X_scaled.shape)
print(X_pca.shape)# 提取后的X_pca可以用于监督学习中的分类
# X_train_pca = pca.transform(X_train)
# X_test_pca = pca.transform(X_test)
# knn = KNeighborsClassifier(n_neighbors=1)
# knn.fit(X_train_pca, y_train)

NMF

与使用 PCA 不同，需要保证数据是正的。

from sklearn.decomposition import NMF
nmf = NMF(n_components=15, random_state=0)
nmf.fit(X_train)
X_train_nmf = nmf.transform(X_train)
X_test_nmf = nmf.transform(X_test)

t-SNE

t-SNE 重点关注距离较近的点，而不是保持距离较远的点之间的距离。换句话说，它试图保存那些表示哪些点比较靠近的信息。

t-SNE 不支持变换新数据，所以 TSNE 类没有 transform 方法。可以调用 fit_transform 方法来代替。

tsne = TSNE(random_state=42)
digits_tsne = tsne.fit_transform(digits.data)

聚类

聚类（clustering）是将数据集划分成组的任务，这些组叫作簇（cluster）。其目标是划分数据，使得一个簇内的数据点非常相似且不同簇内的数据点非常不同。与分类算法类似，聚类算法为每个数据点分配（或预测）一个数字，表示这个点属于哪个簇。

导入库位置

from sklearn.cluster import KMeans
from sklearn.cluster import AgglomerativeClustering
from sklearn.cluster import DBSCAN

K均值聚类

通过n_clusters参数设置要将数据分成几个簇。

kmeans = KMeans(n_clusters=3) # 构建模型
kmeans.fit(X)

可以在 kmeans.labels_ 属性中找到分类标签。也可以用 predict 方法为新数据点分配簇标签，对训练集运行 predict 会返回与 labels_ 相同的结果。

簇中心被保存在 cluster_centers_ 属性中。

注意：k 均值只能找到相对简单的形状。k 均值还假设所有簇在某种程度上具有相同的“直径”，它总是将簇之间的边界刚好画在簇中心的中间位置。

凝聚聚类

链接准则：

ward：默认选项。挑选两个簇来合并，使得所有簇中的方差增加最小。这通常会得到大小差不多相等的簇。
average：链接将簇中所有点之间平均距离最小的两个簇合并。
complete：（也称为最大链接）将簇中点之间最大距离最小的两个簇合并。
single：单次使用两组所有观测值之间的最小距离。

agg = AgglomerativeClustering(n_clusters=3)
assigments = agg.fit_predict(X)

树状图

是将层次聚类可视化的一种工具，可以处理多维数据集。可以利用 SciPy 轻松生成树状图。

from scipy.cluster.hierarchy import dendrogram,wardX,Y = make_blobs(random_state=0,n_samples=12)
linkage_array = ward(X)
dendrogram(linkage_array)ax = plt.gca()
bounds = ax.get_xbound()
ax.plot(bounds,[7.25,7.25],'--',c='k')
ax.plot(bounds,[4,4],'--',c='k')ax.text(bounds[1],7.25,'two clusters',va='center',fontdict={'size':15})
ax.text(bounds[1],4,'three clusters',va='center',fontdict={'size':15})
plt.xlabel('sample index')
plt.ylabel('cluster distance')

DBSCAN

DBSCAN 有两个参数：min_samples 和 eps。如果在距一个给定数据点 eps 的距离内至少有 min_samples 个数据点，那么这个数据点就是核心样本。DBSCAN 将彼此距离小于 eps 的核心样本放到同一个簇中。

X,Y = make_blobs(random_state=0,n_samples=12)
scan = DBSCAN()
clusters = scan.fit_predict(X)
print("Cluster memberships:\n{}".format(clusters))

可以配合缩放一起使用：

scaler = StandardScaler()
scaler.fit(X)
X_scaled = scaler.transform(X) # 将数据缩放成均值为0，方差为1
scan = DBSCAN()
assigments = scan.fit_predict(X_scaled)

聚类算法得对比与评估

用真实值评估聚类

通过真实数据与推测结果做对比，其最佳值为1，0表示不相关的聚类（ARI可以取负值）。

ARI

from sklearn.metrics.cluster import adjusted_rand_score # (ARI 评分函数)adjusted_rand_score(Y,clusters)

NMI

from sklearn.metrics import normalized_mutual_info_score # (NMI 评分函数)normalized_mutual_info_score(Y,clusters)

在没有真实值的情况下评估聚类

通过轮廓系数，但它们在实践中的效果并不好。

轮廓分数计算一个簇的紧致度，其值越大越好，最高分数为 1。虽然紧致的簇很好，但紧致度不允许复杂的形状。

from sklearn.metrics.cluster import silhouette_scoresilhouette_score(X_scaled,clusters) # 注意与ARI、NMI的区别，这里对比不是结果！

查看全文

http://www.dtcms.com/a/558944.html

利用tex调用csv文件中的数据

硅云网站建设视频wordpress观点

花都建设网站保定厂家推荐信息流推广

Python 虚拟环境和包管理

高端网站建设 aspx做衣服的3d软件

网站页面设计怎么做百度知道首页网

Day3：自动化脚本与 Lambda

网站制作培训一般要多少钱网页设计的工作

做直播网站的上市公司北京市建设工程信息网官方网站

C++：用红黑数封装实现map，set

手机网站友情链接怎么做和易企秀类似的软件免费的

网站seo外链建设四川seo快速排名

住房和城乡建设部网站预售证公司介绍模板图片

可以做手机网页的网站服装网站建设方法

外卖网站建设费用怎么上传网站源码

Linux操作系统母盘便捷持久化部署方案

东莞网站建设优化技术成都网站建设哪家

永久免费的wap建站平台宿松网站建设设计

大连网站怎么推广360seo关键词优化

自己做qq头像的网站中卫企业管理培训网站

大良网站建设如何wordpress的登录地址

番禺建设局网站首页如何给网站做右侧导航栏

如何做响应式的网站外贸做那种网站

响应式环保网站模板下载wordpress头像上传插件

个人网站企业网站网站自助建站软件

环保网站中企动力建设深圳哪些公司需要做网站

网站备案流程介绍几个有趣的网站

wordpress整体加速seo上海公司

江油网站建设制作策划哪家专业技术支持东莞网站建设

STM32项目分享：基于STM32的小区无线手机充电装置设计

总结

预处理与缩放

导入库位置

用法

降维、特征提取与流行学习

导入库位置

PCA

NMF

t-SNE

聚类

导入库位置

K均值聚类

凝聚聚类

树状图

DBSCAN

聚类算法得对比与评估

用真实值评估聚类

ARI

NMI

在没有真实值的情况下评估聚类

相关文章：