当前位置: 首页 > news >正文

机器学习前言2

1.机器学习
2.机器学习模型
3.模型评价方法
4.如何选择合适的模型

介绍

  机器学习(Machine Learning, ML)是人工智能(AI)的核心分支,致力于通过数据和算法让计算机系统自动“学习”并改进性能,而无需显式编程。前一篇文章机器学习前言1介绍了机器学习和统计学关系、机器学习的发展、机器学习与深度学习的相同点与不同点、机器学习和深度学习优缺点。链接机器学习前言1,这篇主要介绍机器学习模型和算法方面,几种不同内容分类。常听到说机器学习是做预测和分类,其实还有很多其他内容,比如迁移学习、强化学习等。这里我们主要是以类型划分,具体内容可以参考链接深度学习之卷积神经网络CNN详细,这篇主要以说明深度学习与其他类型之间联系,比如说监督学习、半监督学习、无监督学习等,图展示如下:在这里插入图片描述
如果想了解更多深度学习模型文献可参考这链接卷积神经网络CNN进步史之分类领域小论文文章总结帮助初学者找文献

一、机器学习

1.基本定义

  从数据中自动发现模式(规律),并利用这些模式进行预测或决策。核心思想是通过算法从历史数据中学习模型(数学模型或规则),泛化到新数据。机器学习算法是让计算机从数据中学习规律并做出预测或决策的核心工具。不同的算法适用于不同的问题类型(分类、回归、聚类等)和数据特征(线性/非线性、结构化/非结构化)。

2.步骤

(1)数据准备:数据清洗(处理缺失值、异常值)、特征工程(提取/选择有效特征)。
(2)模型选择:根据任务选择算法(如分类用随机森林,图像识别用CNN)。
(3)训练与评估:划分训练集/测试集,用交叉验证防止过拟合,评估指标(准确率、F1分数、RMSE等)。
(4)部署与迭代:模型上线后持续监控性能,反馈优化(如A/B测试)。

3.常用算法

(1)传统方法:逻辑回归、随机森林、梯度提升树(XGBoost)。
(2)深度学习:神经网络(CNN用于图像,RNN/LSTM用于时序数据,Transformer用于NLP)。
(3)新兴方向:图神经网络(GNN)、元学习(Learning to Learn)。

4.应用

(1)计算机视觉:人脸识别、医学影像分析。
(2)自然语言处理(NLP):机器翻译、聊天机器人。
(3)推荐系统:电商商品推荐(如协同过滤)。
(4)金融:信用评分、欺诈检测。
(5)工业:预测性维护、质量控制。

5.问题

(1)数据质量:噪声、偏差、数据量不足。
(2)过拟合:模型在训练集表现好,但泛化能力差。
(3)可解释性:深度学习模型常被视为“黑箱”。
(4)伦理问题:隐私、算法偏见。

二、机器学习模型

这里将根据三种不同的学习方式、结构和任务进行分类。

1.按学习方式分类

类型特点典型算法
监督学习模型使用带标签数据训练,预测目标变量线性回归、逻辑回归、SVM、决策树、神经网络
无监督学习模型数据无标签,用于发现隐藏结构K-Means、DBSCAN、PCA、GAN(生成对抗网络)
半监督学习模型结合少量标签数据和大量无标签数据Label Propagation、Self-Training
自监督学习模型自动生成标签(如对比学习)SimCLR、BERT(部分任务)
强化学习模型通过环境交互+奖励机制学习最优策略Q-Learning、Deep Q-Network (DQN)、Policy Gradients

2.按模型结构分类

类型特点典型算法
线性模型输入特征的线性组合线性回归、逻辑回归、LDA
非线性模型捕捉复杂非线性关系决策树、SVM(核方法)、神经网络
概率模型基于概率分布进行预测朴素贝叶斯、隐马尔可夫模型(HMM)
集成模型结合多个弱模型提升性能随机森林、XGBoost、AdaBoost
深度学习模型多层神经网络,自动特征提取CNN(图像)、RNN/LSTM(时序)、Transformer(NLP)

3.按任务类型分类

任务目标典型模型
回归(Regression)预测连续值(如房价)线性回归、XGBoost、神经网络
分类(Classification)预测离散类别(如垃圾邮件检测)逻辑回归、SVM、随机森林
聚类(Clustering)无监督数据分组(如用户分群)K-Means、层次聚类、GMM
降维(Dimensionality Reduction)减少特征数量,保留关键信息PCA、t-SNE、Autoencoder
生成模型(Generative Model)生成新数据(如图像、文本)GAN、VAE、Diffusion Models

三、模型评价方法

1.分类任务

指标说明
准确率(Accuracy)正确预测比例(适用于平衡数据)
精确率(Precision)预测为正的样本中实际为正的比例
召回率(Recall)实际为正的样本中被正确预测的比例
F1-Score精确率和召回率的调和平均
AUC-ROC衡量分类器区分正负样本的能力

2.回归任务

指标说明
均方误差(MSE)预测值与真实值的平方误差
均方根误差(RMSE)MSE的平方根
R²(决定系数)模型解释的方差比例

3.聚类任务

指标说明
轮廓系数(Silhouette Score)衡量聚类紧密度和分离度
Calinski-Harabasz指数类内方差 vs 类间方差

四、如何选择合适的模型

(1)问题类型(分类/回归/聚类)决定模型类别
(2)数据规模:小数据、大数据
(3)可解释性需求:高解释性、低解释性
(4)计算资源:轻量级、高计算需求

相关文章:

  • 从银行排队到零钱支付:用“钱包经济学”重构Java缓存认知
  • 【无标题】威灏光电哲讯科技MES项目启动会圆满举行
  • Vue主题色切换实现方案(CSS 变量 + 类名切换)
  • 存储器上如何存储1和0
  • 类模板的简单实例
  • mybatisPlus 新增时 其他字段的值和 id 保持一致实现方法
  • 基于Unity的简单2D游戏开发
  • Vue.js---计算属性computed和lazy
  • 用Python生成词云图的几种方式
  • Chrome拓展(Chrome Extension)开发定时任务插件
  • AWS中国区CloudFront证书管理和应用指南
  • 学习笔记(C++篇)--- Day 5
  • Untiy入门学习(一)3D数学(1)之数学计算公共类Mathf
  • 电子电器架构 --- Zonal架构正在开创汽车电子设计新时代
  • 全流程控制策略,确保AEM制氢安全性
  • 【四川省专升本计算机基础】第二章 计算机软硬件基础(1)
  • C++:内部类
  • upload-labs通关笔记-第7关 文件上传之空格绕过
  • 【开源Agent框架】CAMEL:角色扮演+任务分解
  • YOLOv7训练时4个类别只出2个类别
  • 国家防汛抗旱总指挥部对15个重点省份开展汛前实地督导检查
  • 跨越三十年友情,61岁余隆和60岁齐默尔曼在上海再度合作
  • 李峰已任上海青浦区委常委
  • 上海市重大工程一季度开局良好,多项生态类项目按计划实施
  • 马上评|中学生被操场地面烫伤,谁的“大课间”?
  • 中央军委决定调整组建3所军队院校