常见的算法介绍
算法 | 概述 |
---|---|
线性回归 (Linear Regression) | 线性回归是一种通过属性的线性结合来进行预测的线性模型, 其目的是找到一条直线, 一个平面或者更高维的超平面, 使预测值和真实值之间的误差最小化 |
逻辑回归 (Logistic Regression) | 逻辑回归是一种分类模型, 入二分类公式 P ( Y = 1 ∣ X ) = e x p ( w ∗ x ) 1 + e x p ( w ∗ x ) P(Y = 1|X) = \frac{exp(w*x)}{1+exp(w*x)} P(Y=1∣X)=1+exp(w∗x)exp(w∗x) P ( Y = 0 ∣ X ) = 1 1 + e x p ( w ∗ x ) P(Y= 0 | X) = \frac{1}{1 + exp(w * x)} P(Y=0∣X)=1+exp(w∗x)1 根据给定的输入实例x, 分别求出 P ( Y = 1 ∣ x ) P(Y = 1|x) P(Y=1∣x) 和 P ( Y = 0 ∣ x ) P(Y = 0|x) P(Y=0∣x)比较两个条件的概率, 将示例x分到概率较大的那一类 |
决策树 (Decision Tree) | 决策树从根节点开始对输入实例x的每一个特征进行测试, 根据测试结果, 将x分配到其子节点. 每个子节点对应着该特征的一个取值, 比如递归的对x进行测试并分配, 直至达到叶节点, 最后将x分到叶节点的类中. 通常特征选择的准则是信息增益或者信息增益比 |
支持向量机 (Support Vector Machine, SVM) | SVM的基本模型师二分类模型. 属于有监督学习, 是在特征空间中找出一个超平面作为分类边界, 对数据进行正确分类, 且使每一类样本中距离分类边界最近的样本到分类边界的距离尽可能远, 使分类误差最小化 |
朴素贝叶斯 (Naive Bayes) | 在输入实例x的特征相互独立的前提下, 根据下面的贝叶斯公式, 预测结果属于类别的出现概率, 哪个类别的后验概率最大, 救人位实例x属于哪个类别 P ( C i ∣ F 1 F 2 . . . F n ) = P ( F 1 F 2 . . . F n ) P ( C i ) P ( F 1 F 2 . . . F n ) , i = 1 , 2... , m P(C_i|F_1F_2...F_n) = \frac{P(F_1F_2...F_n)P(C_i)}{P(F_1F_2...F_n)},i = 1,2...,m P(Ci∣F1F2...Fn)=P(F1F2...Fn)P(F1F2...Fn)P(Ci),i=1,2...,m |
K最近邻算法 (K-Nearest Neighbors, KNN) | K最近邻算法会给顶一个训练数据集, 对新的输入实例x, 算法会在训练数据集中找到与x最近的k个实例, 如果这个k个实例大多数属于同一个类, 就把实例x也分到这个类中, 距离函数可以是欧氏距离, 曼哈顿距离, 明式距离或者汉明距离 |
随机森林 (Random Forest, RF) | 随机森林指的是利用多棵树对样本进行训练并预测的一种分类器, 他的基本单元是决策树, 每颗决策树并不完全相同, 采用多个决策树的投票机制来决定最终的分类. 随机森林的构建包括数据的随机性选取和待选特征的随机选取 |
降维算法 (Dimensionality Reduction) | 在机器学习中经常会碰到高维数据集中, 数据样本稀疏, 距离计算已出现特征的线性相关等困难, 这时需要做降维处理. 降维方法有很多, 主要包括主要成分分析(PCA), 线性判别分析(LDA)等 |
AdaBoost算法 (Adaptive Boosting) | AdaBoost是针对同一个训练集训练不同的分类器(弱分类器), 然后把这些弱分类器集合起来, 构成一个更强的最终分类器(强分类器)的迭代算法. 每一次迭代时, 提高那些被前一轮分类器错误分类的数据的权值, 降低那些被正确分类的数据的权值, 最后将基本分类气的线性组合作为强分类器, 给分类误差最小的基本分类器以大的权重, 给分类误差大的基本分类器以小的权重 |
最大期望算法 (Expectation-Maximization algorithm, EM) | EM算法是针对含有隐变量的概率模型 P ( X , Z ∣ θ ) P(X,Z| \theta) P(X,Z∣θ)来估计参数 θ \theta θ的迭代算法, X X X是观测变量的数据, Z Z Z是隐变量的数据, θ \theta θ是模型参数. 基本思想是首先随机初始化参数 θ \theta θ, 然后不断迭代寻找更优的参数 θ \theta θ. 每次跌带包括两步: E步以当前参数 θ i \theta^i θi推断隐变量分布 P ( Z ∣ X , θ i ) P(Z|X,\theta^i) P(Z∣X,θi), 并计算出对数似然 l n ( Z ∣ X , θ i ) ln(Z|X,\theta^i) ln(Z∣X,θi)关于 Z Z Z的期望, 记作 Z i Z^i Zi; M步基于已观测变量 X X X和当前隐变量 Z i Z^i Zi对参数 θ ( i ) \theta^(i) θ(i)做最大似然估计, 使每次跌带得到的参数 t h e t a theta theta的似然函数 P ( X ∣ θ ) P(X|\theta) P(X∣θ)比原来的似然函数大 |