算法简略速记手册
深度学习(基础)
1,数据
2,损失函数,例如交叉熵
3,优化算法,例如随机优化算法Adam
4,网络架构,例如全链接层
5,测试数据
6,评价指标,例如准确性
反向传播算法
通过神经网络反向发送信息的算法,计算损失函数相对于参数的梯度,不负责更新参数,更新参数可通过算法优化来完成
如何防止过拟合 avoid over-fitting
简易模型,交叉验证评估,正则化,获取更多数据,集成学习
神经网络的结构
神经网络的结构指的神经元,激活函数以及多少层。大多数神经网络的结构可以被理解成神经元组成的堆积的层。对于一个问题来说最好的结构是通过验证集来验证的。
词袋模型 bag of words
把文本转化成矩阵。矩阵的每一行都是一个样本,每一个特征都是一个单词。矩阵中的每一个元素都是一个标示这个单词有没有出现的二元分类器,或者是这个单词出现的次数。
Bagging方法 VS Dropout方法
模型:Bagging中,所有的模型是独立的。
Dropout中,子网络间分享参数。
训练:Bagging中,所有的模型都会被训练。
Dropout中,只有一部分子网络会被训练。
贝叶斯
误差---
想象我们可以看到潜在的真实人口分布,甚至还有可能是由于宇宙中的固有噪声或者数据的限制引起的预测误差
法则---两个事件的条件概率间的关系的公式,条件概率是贝叶斯公式的核心
第一步:先拆 3 个关键概念
在贝叶斯的世界里,所有判断都围绕 3 个词,先搞懂它们,公式就好懂了:
- 先验概率(P (A)):在没看到任何新证据前,你对这件事的 “初始猜测”。
比如:“我感觉今天下雨的概率是 30%”“这个病人大概率(80%)不是癌症”—— 这是基于经验或常识的初步判断。 - 似然度(P (B|A)):如果 “事件 A 真的发生了”,那么 “看到证据 B” 的概率有多大。
比如:“如果今天真的下雨(A),那么天空会变阴(B)的概率是 90%”—— 是 “假设成立后,证据出现的可能性”。 - 后验概率(P (A|B)):看到新证据 B 后,你对事件 A 的 “更新后判断”。
比如:“看到天空变阴(B)后,我现在觉得今天下雨(A)的概率是 70%”—— 这是贝叶斯公式要算的核心:用证据修正初始猜测。
第二步:贝叶斯公式(白话翻译)
公式本来长这样:
P(A|B) = [P(B|A) × P(A)] / P(B)
翻译成人话就是:
更新后的判断 = (证据的靠谱程度 × 初始猜测) / 所有可能下出现这个证据的概率
这里的分母 P (B)(证据 B 发生的总概率),可以简单理解为 “不管 A 发不发生,看到证据 B 的可能性总和”,目的是把结果 “归一化”(让概率落在 0-1 之间),不用太纠结,举个例子就通了。
优点和缺点---
优点:数据量小的情况下很好用,非常直观
缺点:大数据下计算消耗很大,必须选择一个先验
误差BIAS
误差是一种预期的由使用模型来逼近真实世界函数创建的误差
用于衡量模型预测值与真实值之间的偏离程度,体现了模型的 “准确性”,即模型在平均意义上(即期望)对真实情况的拟合水平。