归一化与激活函数:深度学习的双引擎
归一化和激活函数区别
归一化和激活函数是深度学习中两个不同但又存在关联的技术,前者聚焦于“数据分布的调整”,后者聚焦于“引入非线性与输出转换”。
Softmax 既可以被视为一种归一化操作,也属于激活函数
因为它同时满足两者的核心特征,只是从不同角度定义:从“输出概率分布”的角度看是归一化,从“神经网络输出层转换”的角度看是激活函数。
一、为什么说 Softmax 是归一化?
归一化的核心是“将数据转换为特定范围(通常总和为1或落在固定区间),便于比较或计算”。Softmax 完全符合这一特征:
- 它将任意实数向量(如模型输出的 logits)转换为 “总和为1的概率分布”(每个元素在 (0,1) 之间,且所有元素之和为1);
- 这种转换本质是一种“概率归一化”——通过指数运算放大差异,再通过归一化让结果可解释为“属于每个类别的可能性”。
例如,输入 logits 为 [2, 1, 0]
,Softmax 输出为 [0.665, 0.244, 0.091]
,三者之和为1,完成了从“原始数值”到“概率分布”的归一化。