模型的原始输出为什么叫 logits
模型的原始输出为什么叫 logits
flyfish
一、Logarithm(对数 log)
定义:对数是指数运算的逆运算,表示某个数在某个底数下的指数。
公式:若
b
x
=
a
b^x = a
bx=a,则
log
b
(
a
)
=
x
\log_b(a) = x
logb(a)=x。
二、Odds(几率)与 Logit
1. Odds(几率)
- 定义:事件发生概率 p p p 与不发生概率 1 − p 1-p 1−p 的比值。
- 公式: Odds = p 1 − p \text{Odds} = \frac{p}{1-p} Odds=1−pp。
- 意义:例如,概率 p = 0.75 p=0.75 p=0.75 对应 Odds 3 : 1 3:1 3:1(成功比失败多 3 倍)。
2. Logit(对数几率)
- 定义:Odds 的自然对数。
- 公式: logit ( p ) = log ( p 1 − p ) \text{logit}(p) = \log\left(\frac{p}{1-p}\right) logit(p)=log(1−pp)。
- 作用:将概率 p ∈ ( 0 , 1 ) p \in (0,1) p∈(0,1) 转换为实数范围 ( − ∞ , + ∞ ) (-\infty, +\infty) (−∞,+∞),便于线性模型处理。
**三、Logistic **
1. Logistic 分布
- 定义:一种连续概率分布,形状类似正态分布,但尾部更厚。
- 概率密度函数:
f ( x ) = e − x ( 1 + e − x ) 2 f(x) = \frac{e^{-x}}{(1 + e^{-x})^2} f(x)=(1+e−x)2e−x
2. Logistic Function(逻辑函数)
- 定义:Logistic 分布的累积分布函数(CDF),即 sigmoid 函数。
- 公式:
σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+e−z1 - 特性:
- S 型曲线,输入 z ∈ R z \in \mathbb{R} z∈R,输出 σ ( z ) ∈ ( 0 , 1 ) \sigma(z) \in (0,1) σ(z)∈(0,1)。
- 导数形式简单: σ ′ ( z ) = σ ( z ) ( 1 − σ ( z ) ) \sigma'(z) = \sigma(z)(1 - \sigma(z)) σ′(z)=σ(z)(1−σ(z)),便于梯度计算。
3. Logistic Regression(逻辑回归)
- 任务:二分类问题。
- 模型:
logit ( p ) = w T x + b ⇒ p = σ ( w T x + b ) \text{logit}(p) = \mathbf{w}^T \mathbf{x} + b \quad \Rightarrow \quad p = \sigma(\mathbf{w}^T \mathbf{x} + b) logit(p)=wTx+b⇒p=σ(wTx+b) - 损失函数:交叉熵损失。
四、Sigmoid vs. Softmax
术语 | 应用场景 | 公式 | 输出范围 | 作用 |
---|---|---|---|---|
Sigmoid | 二分类 | σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1+e^{-z}} σ(z)=1+e−z1 | ( 0 , 1 ) (0,1) (0,1) | 将单个 logit 转换为概率 |
Softmax | 多分类 | softmax ( z i ) = e z i ∑ j e z j \text{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}} softmax(zi)=∑jezjezi | ( 0 , 1 ) (0,1) (0,1) 且总和为 1 | 将多个 logits 转换为概率分布 |
五、Logits 的演变
1. 二分类中的 Logit
- 定义:逻辑回归中线性模型的输出 w T x + b \mathbf{w}^T \mathbf{x} + b wTx+b,即 logit ( p ) \text{logit}(p) logit(p)。
- 与概率的关系:通过 sigmoid 转换为概率。
2. 多分类中的 Logits
- 定义:多分类模型(如神经网络)的原始输出 z 1 , z 2 , . . . , z K z_1, z_2, ..., z_K z1,z2,...,zK。
- 特点:
- 未归一化(数值任意)。
- 通过 softmax 转换为概率分布。
- 术语沿用原因:
- 继承逻辑回归的 logit 概念,表示“概率的前兆”。
- 强调与概率的非线性转换关系。
六、对比
术语 | 数学形式 | 应用场景 | 作用 |
---|---|---|---|
Logarithm | log b ( a ) \log_b(a) logb(a) | 数学、科学计算 | 简化运算、压缩数值范围 |
Odds | p 1 − p \frac{p}{1-p} 1−pp | 概率与统计 | 表示事件发生的相对可能性 |
Logit | log ( p 1 − p ) \log\left(\frac{p}{1-p}\right) log(1−pp) | 逻辑回归、二分类 | 将概率转换为线性模型可处理的实数 |
Logistic Function | 1 1 + e − z \frac{1}{1+e^{-z}} 1+e−z1 | 二分类、激活函数 | 将实数转换为概率 |
Logistic Regression | p = σ ( w T x + b ) p = \sigma(\mathbf{w}^T \mathbf{x} + b) p=σ(wTx+b) | 二分类任务 | 建立特征与二分类标签的概率关系 |
Softmax | e z i ∑ j e z j \frac{e^{z_i}}{\sum_j e^{z_j}} ∑jezjezi | 多分类、激活函数 | 将多个 logits 转换为概率分布 |
Logits | z 1 , z 2 , . . . , z K z_1, z_2, ..., z_K z1,z2,...,zK | 模型输出 | 原始未归一化的分数,需通过激活函数处理 |
在AI中的 logits 单词的含义扩展为模型原始输出,无论是否为对数几率。