当前位置: 首页 > news >正文

机器学习基本介绍

一、人工智能三大核心概念(AI、ML、DL)

1.核心概念定义和特征

概念定义核心特征典型应用场景
人工智能(AI)研究用计算机模拟或替代人类智能的综合领域追求 “类人智能”,涵盖思考、推理、行动等多维度智能家居控制、工业质检、智能客服
机器学习(ML)从历史数据中自动学习规律,对新数据进行预测的技术无需人工编写规则,依赖数据驱动学习垃圾邮件分类、房价预测、用户行为推荐
深度学习(DL)基于深度神经网络(多层神经元结构)的机器学习方法仿大脑神经元连接,擅长处理高维复杂数据(图像、语音等)图像识别(人脸识别)、语音转文字、自动驾驶感知

2.三者关系

        层级包含关系:AI 是顶层目标,ML 是实现 AI 的核心途径,DL 是 ML 的重要分支(可理解为 “AI→ML→DL” 的从属关系)。

        发展演讲逻辑:早期AI 依赖 “规则编程”(如专家系统),效率低且场景局限;ML通过数据训练模型替代人工规则,解决了大量结构化数据问题;DL突破传统 ML 的特征依赖,通过多层网络自动提取高维特征,推动 AI 进入 “第三次浪潮”(如 AlphaGo、ChatGPT)。

3.关键区别:规则编程 VS 模型学习      

对比维度基于规则的编程基于模型的机器学习
核心逻辑程序员手工编写 if-else 规则(如 “邮件标题含‘低价促销’则判定为垃圾邮件”)模型从数据中自动学习规律,无需人工定义规则
适用场景简单、规则明确的问题(如计算器、固定流程的自动化)复杂、规则难以穷尽的问题(图像识别、自然语言处理)
灵活性场景变化需重新编写规则,扩展性差新场景只需补充数据重新训练,适应性强

二、机器学习的应用领域与发展历程

三大主流方向

1.计算机视觉(CV)        

定义:让机器 “看懂” 图像 / 视频数据,提取视觉信息。

典型场景:人脸识别(手机解锁)、目标检测(自动驾驶识别行人 / 车辆)、医学影像诊断(CT 影像识别肿瘤)。

2.自然语言处理(NLP)

定义:让机器理解和生成人类语言(文本、语音)。

典型场景:机器翻译(谷歌翻译)、语音助手( Siri)、情感分析(电商评论正负判断)、AIGC(ChatGPT 生成文案)。

3.数据挖掘与预测分析

定义:从结构化数据中挖掘规律,用于决策支持。

典型场景:房价预测(基于面积、地段等特征)、用户流失预警(分析用户行为预测是否卸载 APP)、金融风控(识别欺诈交易)。

发展历程(四次关键浪潮)

时间阶段核心技术流派里程碑事件
1950s-1970s符号主义(规则驱动)1950 年图灵设计国际象棋程序;1962 年 IBM 跳棋程序战胜人类高手(第一次 AI 浪潮)
1980s-2000s统计主义(数据驱动)1993 年 Vapnik 提出 SVM 算法;1997 年 IBM “深蓝” 战胜国际象棋冠军卡斯帕罗夫(第二次 AI 浪潮)
2010s-2020s深度学习(神经网络)2012 年 AlexNet 夺冠 ImageNet(CNN 爆发);2016 年 AlphaGo 战胜李世石(深度学习突破)
2022 年至今大模型(预训练 + 微调)2022 年 ChatGPT 发布(NLP 大模型普及);AIGC(文生图、文生视频)爆发

AI三要素

1.数据:AI 的 “燃料”,需满足 “量大、质高、多样性”(如 ImageNet 包含 1400 万张标注图像)。

   注意:数据质量优先于数量,脏数据(缺失值、异常值)会直接导致模型失效。

2.算法:AI 的 “引擎”,决定模型学习效率和效果。

   例如:传统 ML 依赖 SVM、决策树;DL 依赖 CNN(图像)、Transformer(NLP)。

3.算力:AI 的 “动力”,支撑大规模数据和复杂模型的训练。

    硬件差异:

                CPU:适合 I/O 密集型任务(如数据读取);

                GPU:适合计算密集型任务(如神经网络矩阵运算),是 DL 训练的核心硬件;

                TPU:谷歌专为大模型设计的专用芯片,算力远超 GPU(如训练 GPT-4 依赖 TPU 集群)。

三、核心术语

术语定义

        样本(Sample):一行数据即一个样本(如 “同学 1” 的完整数据),多个样本组成 “数据集”。  注:样本需避免重复或偏见。

        特征(Feature):对预测结果有用的输入属性(如培训学科、作业考试),一列数据即一个特征。  关键原则:特征需与目标强相关

        数据集划分:将数据集分为 “训练集” 和 “测试集”,核心目的是避免模型 “作弊”(用见过的数据测试)。 常规比例:7:3 或 8:2(训练集占比更高,保证模型充分学习);

理解误区提醒

        1.“特征越多越好”—— 多余特征会导致 “维度灾难”(如用 1000 个无关特征训练,模型复杂度飙升);

        2.“测试集可以用于训练”—— 会导致模型 “过拟合”(在测试集上表现极好,但对新数据无效)。

四、机器学习算法分类(核心框架)

四大分类及核心差异

算法类型核心特点标签情况典型算法适用场景
有监督学习基于 “带标签数据” 训练,模型学习 “特征→标签” 的映射关系数据全部有标签分类:逻辑回归、SVM、随机森林;回归:线性回归、XGBoost分类(垃圾邮件识别、疾病诊断);回归(房价预测、销量预测)
无监督学习基于 “无标签数据” 训练,模型自动挖掘数据内在结构数据无标签聚类:K-Means、DBSCAN;降维:PCA、t-SNE用户分群(电商用户画像)、异常检测(信用卡欺诈)、数据可视化(高维数据降维)
半监督学习结合 “少量有标签数据” 和 “大量无标签数据” 训练部分数据有标签Label Propagation(标签传播)、半监督 SVM标签标注成本高的场景(如医学影像:标注一张 CT 需专业医生 1 小时,可先用少量标注数据训练,再优化无标签数据)
强化学习智能体(Agent)通过与环境交互 “试错学习”,以最大化 “累计奖励” 为目标无固定标签,依赖环境反馈的 “奖励 / 惩罚”Q-Learning、DQN、PPO游戏 AI(AlphaGo)、自动驾驶(避障决策)、机器人控制(机械臂抓取)

关键子分类

对比维度分类问题回归问题
标签类型离散值(如 “是 / 否”“类别 1 / 类别 2”)连续值(如薪资、温度、股价)
核心目标判断 “属于哪一类”预测 “具体数值是多少”
评价指标准确率(Accuracy)、F1 分数、AUC均方误差(MSE)、平均绝对误差(MAE)
示例判断邮件是否为垃圾邮件(二分类);识别图像中物体是猫 / 狗 / 鸟(多分类)预测未来 7 天的气温(连续值);根据房屋面积预测售价(连续值)

算法选择原则

1.先看“数据是否有标签”:有标签-->有监督学习;无标签-->无监督学习;标签少-->半监督学习;

2.再看“任务目标”;分类/回归-->有监督;分群/降维-->无监督;决策优化-->强化学习;

3.扩展:实际场景常 “多算法结合”(如先用 PCA 降维,再用 SVM 做分类,减少计算量)

五:机器学习建模流程(标准化步骤)

1.获取数据

        来源:公开数据集(Kaggle、UCI)、业务数据库(如电商用户数据)、爬虫采集(需合规);

        注意:避免数据偏见(如预测全国房价只采集一线城市数据)。

2.数据基本处理

        核心任务:缺失值处理、异常值处理、数据格式的转化

        注意:该步骤为重点需要反复验证数据质量

3.特征工程(核心环节)

        定义:通过专业技巧处理特征,让模型 “更好地学习”(业界流传 “数据和特征决定上限,模型只是逼近上限”);

        五大子任务:

子任务定义示例
特征提取从原始数据中提取有用特征(如从文本中提取 “词频” 作为特征)图像:提取边缘、纹理特征;文本:提取 TF-IDF 值
特征预处理消除特征量纲差异(如 “身高(cm)” 和 “体重(kg)” 数值范围不同,需标准化)标准化(Z-Score)、归一化(Min-Max)
特征选择筛选与目标强相关的特征,删除冗余特征用 “方差分析(ANOVA)” 选择对分类影响大的特征
特征降维降低特征维度(减少计算量,避免过拟合),保留核心信息PCA(主成分分析):将 100 维特征降为 10 维
特征组合将多个特征合并为新特征(捕捉特征间交互关系)“面积 × 地段等级” 作为新特征,更能反映房价

4.模型训练

        选择算法:根据任务类型选择(回归任务就选线性回归,分类任务选随机森林)

        调参优化:通过网格搜索(Grid Search)、交叉验证(Cross Validation)优化模型参数(如调整 K-Means 的 “K 值”);

        注意:避免 “过拟合”(如模型在训练集准确率 99%,测试集仅 60%)。

5.模型评估与部署

        评估:用测试集计算指标(如分类任务看准确率,回归任务看 MSE);

        迭代:若效果差,返回前序步骤优化(如补充数据、调整特征工程);

        部署:将模型封装为 API(如用 Flask 部署),供业务系统调用(如 APP 的推荐功能)。

6.误区提醒

        1.“跳过特征工程直接建模”—— 会导致模型无法学习有效规律(如用原始文本数据直接输入 SVM,模型无法识别语义);

        2.“只看训练集指标”—— 训练集指标好不代表模型有用,需重点关注测试集指标(泛化能力)。

六、模型拟合问题(过拟合与欠拟合)

核心概念

拟合类型表现(训练集 / 测试集)产生原因解决方法
欠拟合(Underfitting)训练集效果差、测试集效果差模型过于简单,无法捕捉数据规律(如用线性模型拟合非线性数据)1. 增加模型复杂度(如用多项式回归替代线性回归);2. 补充特征(增加与目标相关的特征);3. 减少正则化强度
过拟合(Overfitting)训练集效果好、测试集效果差1. 模型过于复杂(如用 10 次多项式拟合简单线性数据);2. 数据量少或有噪声;3. 特征过多(维度灾难)1. 简化模型(如用决策树剪枝,减少层数);2. 增加数据量(补充更多样本);3. 正则化(L1/L2 正则,限制参数大小);4. 特征选择 / 降维(删除冗余特征)

泛化能力

        定义:模型在训练集上表现的很好,在测试集上很差。(就像学生平时成绩很好,期末成绩很差)

奥卡姆剃刀原则(模型选择指导)

        内容:给定两个泛化误差相同的模型,选择更简单的模型;

        原因:复杂模型易 “死记硬背” 训练数据(过拟合),简单模型更能适应新数据;

        示例:预测房价时,线性回归(简单模型)若与神经网络(复杂模型)测试误差相同,优先选线性回归(易解释、易部署)

七、核心开发环境

核心库   scikit-learn(简写SKlearn)

模块功能常用 API
分类(Classification)解决分类问题LogisticRegression(逻辑回归)、SVC(支持向量机)、RandomForestClassifier(随机森林)
回归(Regression)解决回归问题LinearRegression(线性回归)、Ridge(岭回归)、XGBRegressor(XGBoost 回归)
聚类(Clustering)解决无监督分群问题KMeans(K 均值聚类)、DBSCAN(密度聚类)
预处理(Preprocessing)特征预处理StandardScaler(标准化)、MinMaxScaler(归一化)、OneHotEncoder(独热编码)
模型选择(Model Selection)模型评估与调参GridSearchCV(网格搜索)、cross_val_score(交叉验证)
降维(Dimensionality Reduction)特征降维PCA(主成分分析)、TSNE(可视化降维)
http://www.dtcms.com/a/355624.html

相关文章:

  • 【练习九】Java实现加油站支付小程序:存款与消费
  • 健永科技RFID技术在高压电厂机器狗巡检中的应用
  • Access token(访问令牌:以JWT格式无状态存储)和Refresh token(刷新令牌:有状态存储于Redis/DB)区别与联系、Redis黑名单
  • C#-mqtt通讯,服务端和客户端,以及esp32-mqtt
  • 第二十节:3D文本渲染 - 字体几何体生成与特效
  • 神经网络 | 基于matlab的LSTM详解
  • 3D高斯溅射实现医疗影像内部场景渲染
  • 【论文阅读】Object Detection in Adverse Weather for Autonomous Driving through Data Merging and YOLOv8
  • ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning
  • 第八章:《性能优化技巧》——深入讲解预分配容量、移动语义、避免频繁拼接等优化策略,以及C++17的`string_view`如何减少拷贝开
  • 三电平逆变器SVPWM控制(无解耦功能)与谐波分析
  • gpt-5生成圆柱blockmesh脚本
  • UDS NRC24
  • 修改win11任务栏时间字体和小图标颜色
  • Graphpad Prism Mac医学绘图工具
  • GraphRAG技术深度解析:重新定义智能问答的未来
  • 数据结构初阶:详解顺序表OJ题
  • CUDA 矩阵分块乘法
  • Rust Web开发指南 第六章(动态网页模板技术-MiniJinja速成教程)
  • Docker 核心技术:Union File System
  • 知微集:梯度下降详解
  • 编写TreeMap自定义排序的插曲
  • 信号量使用流程
  • 多媒体内容智能检索技术进展
  • [特殊字符] ​​MySQL性能参数查询总结​
  • 146-延长无线传感器网络生命周期的睡眠调度机制的混合元启发式优化方法!
  • [RK3576][Android14] Android->添加以太网MAC地址选项
  • Spring Boot 实战:接入 DeepSeek API 实现问卷文本优化
  • FFmpeg 实战:从零开始写一个简易视频播放器
  • 视频层和叠加层