当前位置: 首页 > news >正文

数字化转型:概念性名词浅谈(第二十六讲)

大家好,今天接着介绍数字化转型的概念性名词系列。

(1)机器学习——决策树

决策树是一种常用的机器学习算法,广泛应用于分类和回归任务。决策树通过一系列规则对数据进行分类,具有易于理解和实现的特点。

决策树的基本概念

决策树模型是一种树形结构,其中每个内部节点表示一个属性的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树的生成过程主要包括特征选择、决策树生成和决策树剪枝1。

特征选择

特征选择是从训练数据中选择一个特征作为当前节点的分裂标准。常用的特征选择方法包括信息增益、信息增益率和基尼指数1。

  • 信息增益:衡量选择某个属性进行划分时信息熵的变化。信息增益越大,表示该属性越适合作为划分标准。

  • 信息增益率:解决信息增益偏向取值较多特征的问题,通过引入属性本身的分散程度来衡量。

  • 基尼指数:用于衡量数据集的不纯度,基尼指数越小,表示数据集越纯。

决策树生成

决策树生成是根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止生长。常见的决策树算法包括ID3、C4.5和CART1。

  • ID3算法:使用信息增益作为分裂规则,适用于离散数据。

  • C4.5算法:改进了ID3算法,使用信息增益率作为分裂规则,支持连续数据。

  • CART算法:使用基尼指数作为分裂标准,生成二叉树,支持连续数据。



  •  

(2)机器学习——支持向量机

支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。

SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),是一个具有稀疏性和稳健性的分类器 。SVM可以通过核方法(kernel method)进行非线性分类,是常见的核学习(kernel learning)方法之一 。

线性SVM(linear SVM)

 硬边距(hard margin)

给定输入数据和学习目标:

 ,硬边界SVM是在线性可分问题中求解最大边距超平面(maximum-margin hyperplane)的算法,约束条件是样本点到决策边界的距离大于等于1。硬边界SVM可以转化为一个等价的二次凸优化(quadratic convex optimization)问题进行求解。

(3)机器学习——神经网络

人工神经网络(Artificial Neural Network,即ANN ),是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。

最近十多年来,人工神经网络的研究工作不断深入,已经取得了很大的进展,其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题,表现出了良好的智能特性。

今天要介绍的就是这么多,我们下篇文章再见。

相关文章:

  • vue 监听元素大小变化 element-resize-detector
  • ndarray数组掩码操作,True和False获取数据
  • 数字化转型-4A架构之数据架构
  • 《被讨厌的勇气》书摘
  • Papyrus字体介绍
  • CDGP|数据治理怎么带动企业高速发展?
  • 全国青少年信息素养大赛 Python编程挑战赛初赛 内部集训模拟试卷五及详细答案解析
  • 【PhysUnits】3.2 SI 量纲 补充幂运算(dimension/mod.rs)
  • 操作系统面试问题(4)
  • CMD常见命令
  • deep seek简介和解析
  • Etcd 数据存储文件
  • Java 匿名内部类的作用
  • 洛谷 P1179【NOIP 2010 普及组】数字统计 —— 逐位计算
  • MTU最大传输单位
  • Java 集合体系深度解析面试篇
  • 各类音频放大器电路原理简析
  • Tomcat 日志体系深度解析:从访问日志配置到错误日志分析的全链路指南
  • 首版次软件测试的内容有哪些?首版次软件质量影响因素是什么?
  • 互联网大厂Java求职面试:基于RAG的智能问答系统设计与实现-1
  • 工行回应两售出金条发现疑似杂质:情况不属实,疑似杂质应为金条售出后的外部附着物
  • 习近平会见古共中央第一书记、古巴国家主席迪亚斯-卡内尔
  • 读图|展现城市品格,上海城市影像走进南美
  • 首批证券公司科创债来了!拟发行规模超160亿元
  • 上海推动AI+文旅深度融合,MaaS平台和产业基地落地徐汇
  • “80后”计算机专家唐金辉已任南京林业大学副校长