当前位置: 首页 > news >正文

机器学习简单概述

Chatgpt回答

  • 机器学习:机器学习是人工智能的一个分支,侧重于通过数据训练模型,使计算机能够根据数据进行预测、分类、回归等任务。它通过算法从历史数据中学习规律,然后在新数据上进行推断。机器学习包括多种算法,如**线性回归、决策树、支持向量机(SVM)、K最近邻(KNN)**等。
  • 深度学习:深度学习是机器学习的一个子集,它基于人工神经网络(特别是深层神经网络)来模拟人类大脑的学习方式。深度学习能够处理复杂的数据结构(如图像、语音、文本等),并能够自动从原始数据中提取特征,而不需要人工特征工程。

1.统计学习方法概论

监督学习:告诉它哪些东西是好的,哪些东西是坏的,依据这些来学习。
实现步骤:1.得到一个有限的训练数据集合;2.确定模型的假设空间,也就是所有的备选模型;3.确定模型选择的准则,即学习策略;4.实现求解最优模型的算法;5.通过学习方法选择最优模型;6.利用学习的最优模型对新数据进行预测或分析

数据集的划分

  • 训练集:模型的训练
  • 测试集:模型的选择
  • 验证集:模型的评估
  1. 统计学习路线:设计模型->训练->预测
  2. 监督学习与非监督学习的联系与区别
  3. 统计学习三要素:模型、策略、算法
  4. 模型的评估:训练误差、验证误差、测试误差
  5. 正则化与交叉严重
  6. 泛化能力:泛化误差上界
  7. 生成模型与判别模型的联想与区别
  8. 分类问题:准确率、精确率、召回率、F1值
  9. 标准问题
  10. 回归问题:输出为连续的值

2.感知机——入门的垫脚石

超平面

  1. 感知机通过构造超平面的形式划分不同类的点。
  2. 感知机属于线性判别模型,因为它的判别边界是线性的。
  3. 函数间隔和几何间隔的区别

3.K近邻——物以类聚

  1. K近邻的思想:物以类聚
  2. K近邻没有显式的训练过场
  3. 距离度量:欧式距离、曼哈顿距离、切比雪夫距离
    • 欧式距离:两点之间直线
    • 曼哈顿距离:城市街区距离
    • 切比雪夫距离:棋盘距离
  4. 分类方式:多数表决规则

欧式距离、曼哈顿距离、切比雪夫距离

4.朴素贝叶斯

条件概率公式:
P ( A ∣ B ) = P ( A B ) P ( B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A \mid B)=\frac{P(A B)}{P(B)}=\frac{P(B \mid A) P(A)}{P(B)} P(AB)=P(B)P(AB)=P(B)P(BA)P(A)
表示已发生事件B的情况下,事件A发生的概率。

5.决策树——每次选一边

信息熵:在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。
熵越大,则随机变量的不确定性越大。

信息增益:表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
信息增益算法
输入:训练数据集D和特征A
输出:特征A对训练数据集D的信息
信息增益比:
如果以信息增益为划分依据,存在偏向选择取值较多的特征,信息增益是对这一问题进行矫正。

  1. 决策树的核心思想:以树结构为基础,每个节点对某特征进行判断,进入分支,直到到达叶节点。
  2. 决策树构造的核心思想:让信息熵快速下降,从而达到最少的判断次数获得标签。
  3. 判断信息熵下降速度的方法:信息增益。
  4. 构建决策树算法:ID3(使用信息增益)、C4.5(使用使用信息增益比)。
  5. 信息增益会导致节点偏向选取取值角度的特征的问题。

6.逻辑斯蒂回归于最大熵

  1. 逻辑斯蒂以输出概率的形式解决了极小距离带来的+1和-1的天壤之别,同时概率也可作为模型输出的置信程度。
  2. 逻辑斯蒂使得了最终的模型函数连续可微,训练目标与预测目标达成一致。
  3. 逻辑斯蒂采用了较大似然估计来估计参数。

最大熵:趋向于均匀分布,即可最大

7.支持向量机——升维打击

Support vector machines (SVM)

这里提到了最优超平面,在感知机里面,我们说的是超平面,现在通过SVM升维,存在最优超平面,就不是线性的了。

升维一定会线性可分?会不会升到无穷维了仍然线性不可分?
答案是不会的,首先要明白,我们的数据集一定是基于真实的某种分布,分为A类的样本和B类的一定在本质上有区别。只要有区别,就一定可以区分开来,一定在某个高维度上线性可分。

相关文章:

  • Open CASCADE学习|ApplicationFramework 框架使用指南
  • 数字化转型-4A架构之应用架构
  • IvorySQL 再次走进北京大学研究生开源公选课
  • ICode国际青少年编程竞赛—Python—4级训练场—复杂嵌套循环
  • Golang的linux运行环境的安装与配置
  • Spark和Hadoop之间的联系
  • 【大模型系列篇】探索面壁小钢炮最强多模态端侧大模型 MiniCPM-o
  • Linux57配置MYSQL YUM源
  • 【人工智能agent】--dify通过mcp协议调用工具
  • Go语言——for循环、包构建以及包冲突
  • 物联网从HomeAssistant开始
  • 【无标题】云计算运维
  • 通道注意力-senet
  • LLM词编码机制:文字映射,词嵌入
  • 【测试开发】BUG篇 - 从理解BUG到如何处理
  • Spark中RDD算子的介绍
  • JVM中对象的存储
  • 验证es启动成功
  • win10 使用 bat 文件,切换电源模式
  • cpp学习笔记3--class
  • 陈宝良 高寿仙 彭勇︱明清社会的皇权、商帮与市井百态
  • 铁肩担道义,历史鉴未来——中共中央政治局委员、外交部长王毅谈习近平主席对俄罗斯进行国事访问并出席纪念苏联伟大卫国战争胜利80周年庆典
  • 外交部:习近平主席同普京总统达成许多新的重要共识
  • 央行谈MLF:逐步退出政策利率属性回归流动性投放工具
  • 新买宝马竟是“维修车”,男子发视频维权被4S店索赔100万
  • 一热就出汗 VS 热死都不出汗的人,哪个更健康?