当前位置：首页 > news >正文

人工智能通识速览

news 2025/10/17 0:13:56

一、机器学习

从学习能力角度：机器学习是让计算机系统能够从数据中自动学习知识和模式，不断提升自身性能，以完成各种任务的方法和技术。它致力于使计算机具备类似人类的学习能力，能够从经验中学习并适应新情况，而无需对每个具体任务进行明确的编程指令设定。例如，通过让计算机学习大量的手写数字图像数据，它能够学会识别不同的手写数字，并且随着学习数据的增多和学习过程的推进，识别的准确率会不断提高。
从数据驱动角度：机器学习是一种数据驱动的方法，旨在利用大量的数据来发现数据中的潜在规律和模式，并基于这些规律进行预测和决策。它通过对数据进行分析、建模和算法训练，挖掘数据中的有用信息，以实现对未知数据的预测或对数据内在结构的理解。比如，在分析用户消费数据时，机器学习算法可以发现用户的消费模式和偏好，从而为个性化推荐系统提供依据，向用户推荐符合其兴趣的商品或服务。
从人工智能分支角度：机器学习是人工智能的一个重要分支领域，是实现人工智能的核心技术之一。它为人工智能系统提供了从数据中学习和获取知识的能力，使得人工智能系统能够具备智能决策、模式识别、自然语言处理等各种智能行为。通过机器学习算法，计算机可以自动从数据中提取特征、建立模型，并利用模型进行推理和预测，从而实现智能化的任务处理。例如，在图像识别的人工智能应用中，机器学习算法通过学习大量的图像数据，让计算机能够自动识别图像中的物体、场景等，使人工智能系统具备视觉感知能力。

1.主要任务
- 监督学习：给定一组带有标记（标签）的训练数据，模型学习输入特征与输出标记之间的映射关系，然后利用学到的模型对新的未知数据进行预测。例如，通过学习大量已标图像分类任务中，模型注类别的图像，学会判断新图像属于哪个类别。常见的监督学习算法有决策树、支持向量机、神经网络等。
- 无监督学习：数据集中没有给定的明确标记或目标值，模型旨在发现数据中的内在结构、模式或规律。比如，聚类算法将数据点划分为不同的簇，使得同一簇内的数据点相似度较高，不同簇的数据点相似度较低；主成分分析（PCA）用于对数据进行降维，提取出最能代表数据特征的主成分。
- 强化学习：智能体（agent）在环境中进行一系列的动作，通过与环境进行交互获得奖励反馈，学习到最优的行为策略以最大化长期累积奖励。例如，机器人通过不断尝试不同的动作来学习如何在复杂环境中行走并完成任务，或者游戏中的智能体学习如何通过一系列操作获得最高得分。

半监督学习

半监督学习是一种结合了少量有标记数据和大量无标记数据进行学习的机器学习方法，旨在利用无标记数据中的信息来提高模型的性能，以下是关于半监督学习的详细介绍：

定义与背景：在实际应用中，获取大量有标记数据往往成本高昂、耗时费力，而无标记数据则相对容易获取。半监督学习就是为了充分利用这些无标记数据的信息，将其与少量有标记数据相结合，让模型能够学习到更全面的特征和模式，从而提高模型的泛化能力和性能，降低对大量有标记数据的依赖，减少数据标注的工作量和成本。
主要方法
- 半监督分类：常见的方法有基于生成式模型的方法，如半监督朴素贝叶斯等，它假设数据是由某种概率分布生成的，利用有标记数据和无标记数据来估计这个分布的参数，进而进行分类；还有基于半监督支持向量机的方法，通过在传统支持向量机的基础上，引入无标记数据的信息，找到一个能同时满足有标记数据分类要求和无标记数据分布特性的决策边界。
- 半监督聚类：例如约束式聚类，利用少量有标记数据提供的约束信息，如哪些数据点应该属于同一簇或不同簇，来指导无标记数据的聚类过程，使聚类结果更符合实际需求；基于图的半监督聚类方法，将数据点构建成一个图，节点表示数据点，边表示数据点之间的相似性，然后利用有标记数据和图的结构信息来进行聚类。
- 半监督回归：可以通过将无标记数据视为辅助信息，利用它们来正则化回归模型，例如在损失函数中加入与无标记数据相关的项，使得模型在拟合有标记数据的同时，能够学习到数据的整体结构，提高回归模型的准确性和稳定性。
典型算法
- 自训练算法：先使用有标记数据训练一个初始模型，然后用这个模型对无标记数据进行预测，将预测结果置信度较高的无标记数据添加到有标记数据集中，重新训练模型，不断迭代这个过程，逐步扩大有标记数据集，提高模型性能。
- 协同训练算法：假设数据有不同的视图（即不同的特征子集），利用两个或多个基于不同视图的分类器进行协同训练。每个分类器先用有标记数据训练，然后用自己的预测结果去 “教导” 另一个分类器，同时也接收另一个分类器的 “教导”，通过这种方式利用无标记数据中的信息，提升两个分类器的性能。
应用场景
- 图像识别：在图像分类任务中，只有少量图像有类别标记，大量未标记图像可以通过半监督学习方法，帮助模型学习到更丰富的图像特征，提高对各种图像类别的识别能力，例如识别不同种类的植物、动物等。
- 自然语言处理：在文本分类、情感分析等任务中，半监督学习可以利用大量未标注的文本数据，结合少量有标注的文本，学习到更全面的语言模式和语义信息，提高模型对文本内容的理解和分类准确性，如对社交媒体上的文本进行情感倾向分析。
- 生物信息学：在基因序列分类、蛋白质结构预测等问题中，获取有标记的数据难度较大，半监督学习可以借助大量无标记的生物数据，结合已有的少量标记数据，挖掘生物数据中的潜在规律，帮助进行生物信息的分析和预测。

2.回归模型

回归分析（ regression analysis ）指的是确定两种或两种以上变量间相互依赖的定量关系的

一种统计分析方法。

线性回归（Linear Regression）：假设因变量与自变量之间存在线性关系。包括简单线性回归，只有一个自变量，如y=β0+β1x+ϵ；多元线性回归则有多个自变量，形式为y=β0+β1x1+β2x2+⋯+βnxn+ϵ。线性回归模型简单直观，解释性强，但对于复杂的非线性关系可能拟合效果不佳。
- 原理：假设自变量和因变量之间存在线性关系，通过最小化误差的平方和来确定模型的参数，即找到一条直线（在多元线性回归中是一个超平面），使得数据点到该直线（超平面）的距离平方和最小。数学表达式为y=β0+β1x1+β2x2+⋯+βnxn+ϵ，其中y是因变量，xi是自变量，βi是待估计的参数，ϵ是误差项。
- 线性回归使用mse均方误差作为损失函数。

对于，

计算梯度并按照学习率更新参数。

梯度下降算法：无法保证优化结果是全局最优

损失函数值很可能落入极小值点而非最小值点

逻辑回归（Logistic Regression）：虽然名字中包含 “回归”，但它实际上是一种用于分类问题的模型。它基于线性回归模型，通过使用逻辑函数（通常是 Sigmoid 函数）将线性组合的结果映射到0到1之间的概率值，从而进行二分类或多分类预测。对于二分类问题，假设线性回归模型的输出为z=β0+β1x1+β2x2+⋯+βnxn，则逻辑回归模型的预测概率为，其中p(y=1∣x)表示给定输入x时，样本属于类别1的概率。

Sigmoid 函数：

多项式回归（Polynomial Regression）：是线性回归的一种扩展，它将自变量的多项式函数作为新的特征加入到模型中。例如，对于自变量x，可以构建二次多项式回归模型y=β0+β1x+β2x2+ϵ，或者更高次的多项式模型。多项式回归能够拟合更复杂的曲线关系，但可能会出现过拟合问题，即模型在训练数据上表现很好，但在新数据上泛化能力较差。
岭回归（Ridge Regression）：是一种改进的线性回归方法，用于解决多重共线性问题（即自变量之间存在高度相关性）。它在最小二乘法的损失函数中加入了一个L2正则化项，（如下式）其中λ是正则化参数，用于控制正则化的强度。通过引入L2正则化，岭回归可以收缩回归系数，使得模型更加稳定，减少过拟合的风险。
Lasso 回归（Least Absolute Shrinkage and Selection Operator Regression）：线性回归的压缩估计方法，它在模型选择和参数估计方面具有独特的优势，Lasso 回归也是在普通最小二乘法的基础上加入了正则化项，但其正则化项采用的是L1范数，目标函数如下，其中λ同样是正则化参数，用于控制正则化的强度。与岭回归不同的是，L1正则化会使一些回归系数的估计值直接变为0，从而实现变量选择的功能，即自动筛选出对因变量影响较大的自变量，将不重要的自变量的系数收缩为0，得到一个更简洁、更具解释性的模型。

Lasso 回归求解方法：Lasso 回归的求解相对复杂，不能像岭回归那样直接通过求解正规方程得到解析解。常用的求解算法有坐标下降法、最小角回归算法（LARS）等。
坐标下降法是一种迭代算法，它每次只更新一个变量的系数，固定其他变量的系数，通过循环迭代来逐步逼近最优解。
最小角回归算法则是一种基于贪婪策略的算法，它从所有自变量中选择与残差相关性最强的变量，逐步构建回归模型，在迭代过程中根据λ的值来确定何时停止添加变量，并对系数进行收缩，最终得到 Lasso 回归的解。

3.正则化

正则化（Regularization）是机器学习和统计学中用于防止模型过拟合、提高模型泛化能力的一种重要技术。以下是关于正则化的详细介绍：

原理

从模型复杂度角度来看，当模型过于复杂，例如参数过多时，它可能会过度拟合训练数据中的噪声和细节，导致在新数据（测试集）上表现不佳。正则化通过对模型参数施加约束或惩罚，限制模型的复杂度，使模型在拟合数据和避免过拟合之间取得平衡。
从数学角度理解，正则化通常是在模型的损失函数中添加一个正则化项。常见的正则化项有L1正则化和L2正则化。L1正则化项是参数的绝对值之和，L2正则化项是参数的平方和。以线性回归模型为例，加入正则化项后的损失函数如下：

作用

防止过拟合：通过惩罚较大的参数值，正则化可以使模型的参数尽可能小，从而使模型更加简单平滑，减少模型对训练数据的过度拟合，提高模型在未知数据上的泛化能力。
特征选择：L1正则化具有稀疏性，会使部分参数变为0，这相当于自动进行了特征选择，筛选出对模型输出影响较大的特征，去除不重要的特征，降低了模型的维度，提高了模型的可解释性。

应用场景

各类机器学习模型：在线性回归、逻辑回归、支持向量机、神经网络等各种机器学习模型中都有广泛应用。例如在神经网络训练中，正则化可以防止网络过深或神经元过多导致的过拟合问题，使训练出的模型能够更好地推广到新的数据上。
数据维度较高的情况：当数据的特征维度很高，例如在文本分类、图像识别等领域，数据往往具有大量的特征，容易出现过拟合现象，正则化可以帮助模型在高维数据中找到更具代表性的特征，提高模型的性能和稳定性。

实现方式

参数惩罚：如上述在损失函数中添加L1或L2正则化项是最常见的实现方式，通过调整正则化参数λ来控制对模型参数的惩罚程度。λ越大，惩罚力度越强，模型越简单，但如果λ过大，可能会导致模型欠拟合；λ越小，模型越接近原始的无正则化模型，可能会出现过拟合。
Dropout：这是一种常用于神经网络的正则化技术。在训练过程中，以一定的概率随机将神经元的输出设置为0，即暂时 “丢弃” 这些神经元，这样可以防止神经元之间形成过于复杂的协同适应关系，迫使模型学习更鲁棒的特征表示，提高模型的泛化能力。
数据增强：对于图像、语音等数据，通过对原始数据进行旋转、缩放、平移、添加噪声等变换，生成更多的训练数据，增加数据的多样性，使模型能够学习到更具一般性的特征，从而起到正则化的作用，减少过拟合的风险。

4.支持向量机

支持向量机（Supported Vector machine，SVM）使用一个超平面使样本分成两类，并且尽可能使分类间隔最大。非常适用于规模不大数据集下的分类问题。

原理

硬间隔：严格的让所有的数据都不在最大间隔之内，并且被分类到正确的一测。

软间隔：在尽可能保持最大间隔和限制间隔违例中间，寻找一个平衡。（允许一定的案

例被分到最大间隔之内，以换取最大的分类间隔。）

数学模型

优化目标：

使用拉格朗日乘数法，将优化函数转化为：

求解

序列最小优化算法SMO？

KKT条件？

应用场景

图像识别：在图像分类任务中，SVM 可以将图像的特征向量作为输入，通过训练学习到不同类别图像的特征边界，从而对新的图像进行分类。例如手写数字识别，将手写数字图像的像素特征或提取的其他特征（如 HOG 特征）输入 SVM 模型，训练得到的模型能够准确地识别出不同的数字。
文本分类：对于文本数据，将文本表示为词向量或其他特征向量后，SVM 可以用于文本的主题分类、情感分类等任务。例如对新闻文本进行分类，判断其属于政治、经济、体育等不同的类别，或者对用户评论进行情感分析，判断是积极、消极还是中性情感。
生物信息学：在基因序列分类、蛋白质结构预测等生物信息学领域也有广泛应用。例如根据基因序列的特征，使用 SVM 来预测基因的功能类别，或者根据蛋白质的氨基酸序列特征来预测其二级结构等。

5.树模型

决策树

决策树是一种常用的机器学习算法，它基于树结构进行决策，每个内部节点是一个属性上的测试，分支是测试输出，叶节点是类别或值，可用于分类和回归任务，以下是具体介绍：

原理：决策树的基本原理是通过对训练数据进行学习，构建一棵能够对新数据进行分类或预测的树结构。它基于信息论中的信息增益（或其他类似的度量指标）来选择最优的划分属性，使得划分后的数据子集在类别上更加纯净，即不确定性（熵）减少。具体来说，从根节点开始，对样本的属性进行测试，根据测试结果将样本划分到不同的子节点，递归地进行这个过程，直到满足停止条件，如节点中的样本都属于同一类别，或者达到预设的树深度限制等。
构建过程
- 特征选择：选择具有最高信息增益（或其他度量指标，如基尼指数）的特征作为当前节点的分裂特征。信息增益衡量了使用某个特征进行分裂后，数据的不确定性减少的程度。例如，对于一个二分类问题，如果某个特征能够将数据集明显地划分为两个子集，且每个子集中的样本大部分都属于同一类别，那么这个特征的信息增益就较高。
- 决策树生成：根据选定的分裂特征，将数据集划分为不同的子集，为每个子集创建一个子节点，并在子节点上继续进行特征选择和分裂，直到满足停止条件。这个过程递归地进行，最终形成一棵决策树。
- 剪枝：由于决策树在训练过程中可能会过度拟合训练数据，导致在测试数据上表现不佳。剪枝是为了去除决策树中不必要的分支，降低模型复杂度，提高模型的泛化能力。剪枝方法通常分为预剪枝和后剪枝。预剪枝是在决策树生成过程中，提前停止某些分支的生长，例如当节点的样本数量小于某个阈值，或者信息增益小于某个设定值时，就不再继续分裂该节点。后剪枝是在决策树生成完成后，从叶节点开始，自下而上地评估每个内部节点的重要性，如果某个节点的删除不会导致模型性能明显下降，就将该节点及其子树删除。
应用场景
- 分类任务：决策树广泛应用于各种分类问题，如垃圾邮件分类、疾病诊断分类等。例如在医疗诊断中，可根据患者的症状、检查结果等特征构建决策树，用于判断患者是否患有某种疾病，或者对不同类型的疾病进行分类。
- 回归任务：虽然决策树更多地用于分类，但也可以用于回归问题。在回归决策树中，叶节点不再是类别标签，而是预测的数值。例如，可以根据房屋的面积、房间数量、地理位置等特征构建决策树，来预测房屋的价格。
- 数据探索和特征分析：决策树可以帮助理解数据中的特征关系和重要性。通过观察决策树的结构和节点的分裂特征，可以了解哪些特征对目标变量的影响较大，以及不同特征之间的相互作用。这对于数据探索和特征工程非常有帮助，可以为进一步的数据分析和模型构建提供指导。
优缺点
- 优点：决策树具有直观易懂的特点，模型的结构可以很容易地可视化，人们可以清晰地看到决策的过程和依据。它对数据的预处理要求较低，不需要对数据进行复杂的归一化或标准化处理。而且决策树能够处理离散型和连续型特征，对于不同类型的数据具有较好的适应性。在训练过程中，决策树可以自动发现数据中的重要特征和特征之间的关系，不需要人工进行特征工程。
- 缺点：决策树容易过拟合训练数据，特别是在数据量较小或者特征数量较多的情况下。过拟合的决策树在面对新的数据时，泛化能力较差，可能会导致预测准确率下降。决策树的稳定性相对较差，数据的微小变化可能导致树结构的显著变化，从而影响模型的性能。此外，对于具有复杂关系的数据，决策树可能无法很好地捕捉数据的内在规律，需要结合其他方法进行处理。

常见的决策树

ID3 算法
- 原理：基于信息增益的概念，选择信息增益最大的属性作为节点分裂的依据。信息增益是指在一个属性上进行分裂后，数据集的信息熵减少的程度。信息熵是用来衡量数据的不确定性的指标，熵值越大，数据的不确定性越高。通过选择信息增益最大的属性进行分裂，可以最快地降低数据的不确定性，使得决策树能够更有效地对样本进行分类。
- 特点：优点是理论清晰，方法简单，学习能力较强。缺点是倾向于选择取值较多的属性，因为取值多的属性可能会使数据划分得更细，从而导致信息增益较大，但这并不一定意味着该属性是最优的分类属性，可能会导致决策树过拟合；且只能处理离散型属性，对于连续型属性需要先进行离散化处理；对缺失值比较敏感，在处理含有缺失值的数据时可能会出现问题。
C4.5 算法
- 原理：在 ID3 算法的基础上进行了改进，采用信息增益率作为属性选择的标准。信息增益率是信息增益与属性的固有值（一种衡量属性取值均匀程度的指标）的比值。通过引入信息增益率，可以避免 ID3 算法中倾向于选择取值过多属性的问题，使得选择的属性更具有代表性。同时，C4.5 算法还具有处理连续型属性和缺失值的能力。对于连续型属性，C4.5 算法会先对属性值进行排序，然后尝试不同的分割点，计算每个分割点的信息增益率，选择信息增益率最大的分割点将连续型属性划分为两个区间，从而将连续型属性转化为离散型属性进行处理。对于缺失值，C4.5 算法会根据其他非缺失样本的情况来计算信息增益率，并在分类时根据缺失值在各个分支上的概率分布来进行决策。
- 特点：相比 ID3 算法，C4.5 算法在属性选择上更加合理，能够处理连续型属性和缺失值，具有更强的适用性和鲁棒性。然而，C4.5 算法在处理大规模数据集时，计算信息增益率的开销较大，生成的决策树可能比较复杂，导致模型的训练和预测速度相对较慢。
CART 算法（分类与回归树）
- 原理：既可以用于分类任务，也可以用于回归任务。在分类任务中，CART 算法使用基尼指数来选择最优的分裂属性和分裂点。基尼指数用于衡量数据集的不纯度，基尼指数越小，数据集的纯度越高，即数据集中属于同一类别的样本比例越高。在回归任务中，CART 算法使用平方误差作为度量指标，通过最小化平方误差来选择最优的分裂属性和分裂点。与 C4.5 算法不同的是，CART 算法生成的决策树是二叉树，即每个内部节点只有两个分支，这使得决策树的结构更加简单，计算效率更高。
- 特点：CART 算法具有计算速度快、生成的决策树结构简单的优点，适用于处理大规模数据集。由于其二叉树的结构，在进行预测时的计算量相对较小，能够快速给出预测结果。此外，CART 算法在分类和回归任务上都有较好的表现，具有较强的通用性。不过，CART 算法也可能会出现过拟合的问题，尤其是在数据分布不均匀或者噪声较大的情况下，需要通过适当的剪枝策略来提高模型的泛化能力。