当前位置：首页 > news >正文

期望分位数回归模型

news 2025/8/18 14:11:55

在这里插入图片描述

在这里插入图片描述
好的，同学们！今天我们深入讲解带约束的惩罚期望分位数回归模型以及如何选择它的关键参数 $λ\lambda$ 。这些公式看起来有点复杂，但别担心，我们会一步步拆解，理解每个部分的含义和作用。

核心目标： 我们想建立一个回归模型，但它有3个特殊要求：

关注特定“分位点” (Expectile Focus): 不像普通最小二乘回归只关心“平均值”，我们可能更关心数据整体中“偏低”(比如 $τ=0.25\tau = 0.25$ )、“中间”( $τ=0.5\tau = 0.5$ )或“偏高”( $τ=0.75\tau = 0.75$ )部分的数据趋势。 $τ\tau$ 就是这个分位点参数。
防止过拟合，自动选特征 (Penalization & Feature Selection): 特别是在变量很多(高维)而数据点相对较少时，模型容易记住训练数据的噪声（过拟合）。L1惩罚项 ( $∥Dβ∥1\| D\beta \|_1$ ) 帮助我们解决这个问题。
融入专家知识或现实限制 (Constraints): 我们知道某些变量之间的关系必须满足特定条件（比如“价格系数不能是负数”、“某些系数之和必须等于某个固定值”）。这些知识可以通过约束条件( $Cβ≥dC\beta \geq d$ , $Eβ=fE\beta = f$ )直接加到模型里。

公式详解 (像搭积木一样理解)：

1. 带约束的惩罚期望分位数回归模型 (公式 2.4):

$min⁡β\min_{\beta}$ $期望分位数损失\underbrace{\rho_{\tau}\left( Y - X\beta \right)}_{\text{(a) 期望分位数损失}}$ + $λ\lambda$ $L1惩罚项\underbrace{\| D\beta \|_1}_{\text{(b) L1惩罚项}}$ $s.t.\quad \text{s.t.} \quad$ $不等式约束\underbrace{C\beta \geq d}_{\text{(c) 不等式约束}}$ , $等式约束\underbrace{E\beta = f}_{\text{(d) 等式约束}}$

$min⁡β\min_{\beta}$ : 表示我们要找一组回归系数 $β\beta$ ( $β\beta$ )(beta)，使得后面整个表达式达到最小值。 $β\beta$ 就是我们模型的核心，每个 $βj\beta_j$ ( $βj\beta_j$ ) 代表第 $j$ ( $j$ ) 个预测变量 ( $X_j$ ( $X_j$ )) 对响应变量 ( $Y$ ( $Y$ )) 的影响大小。
块 (a) $ρτ(Y−Xβ)\rho_{\tau}(Y - X\beta)$ :期望分位数损失函数
- $X\beta$ : 这是模型的残差向量。 $XβX\beta$ 是用当前系数 $β\beta$ 预测出的 $Y$ 值， $Y$ 是真实值，它们的差就是预测误差（残差）。
- $ρτ(r)\rho_{\tau}(r)$ : 这是核心！它是一个非对称的损失函数（公式 2.2）。想象一下：
  - 当某个数据点的残差 $ri≥0r_i \geq 0$ ( $ri≥0r_i \geq 0$ ) (预测值 < 真实值)，惩罚是 $τ⋅(ri)2\tau \cdot (r_i)^2$ .
  - 当残差 $r_i < 0$ ( $r_i < 0$ ) (预测值 > 真实值)，惩罚是 $\tau) \cdot (r_i)^2$ .
- $τ\tau$ 的作用： $τ\tau$ ( $τ\tau$ ) 控制非对称的程度。
  - $τ=0.5\tau = 0.5$ : 损失变成对称的 $0.5 \cdot (r_i)^2$ ，等价于普通最小二乘回归（OLS），关注均值。
  - $τ<0.5\tau < 0.5$ ( $τ<0.5\tau < 0.5$ ) (如 $τ=0.25\tau = 0.25$ ( $τ=0.25\tau = 0.25$ ))：对预测值偏低（真实值 > 预测值）的惩罚变轻( $τ\tau$ 小)，对预测值偏高（真实值 < 预测值）的惩罚变重( $1−τ1-\tau$ 大)。模型会更倾向于拟合数据分布中偏低的部分。
  - $τ>0.5\tau > 0.5$ ( $τ>0.5\tau > 0.5$ ) (如 $τ=0.75\tau = 0.75$ ( $τ=0.75\tau = 0.75$ ))：相反，对预测值偏高的惩罚变轻( $τ\tau$ 大)，对预测值偏低的惩罚变重( $1−τ1-\tau$ 小)。模型会更倾向于拟合数据分布中偏高的部分。
- $)\sum \rho_{\tau}(\cdots)$ : 把数据集中所有数据点 ( $i = 1$ ( $i = 1$ ) 到 $n$ ( $n$ )) 的损失 $ρτ(ri)\rho_{\tau}(r_i)$ 加起来。我们要找的 $β\beta$ 就是这个总和最小的那个。
块 (b) $λ∥Dβ∥1\lambda \| D\beta \|_1$ :L1惩罚项 (Lasso型惩罚)
- $∥⋅∥1\| \cdot \|_1$ : 这是 L1 范数。对于一个向量 $(v_1, v_2, \ldots, v_m)$ ( $(v_1, v_2, \ldots, v_m)$ ), $∥v∥1=∣v1∣+∣v2∣+⋯+∣vm∣\| v \|_1 = |v_1| + |v_2| + \cdots + |v_m|$ . 它计算向量所有元素绝对值的和。
- $DβD\beta$ : $D$ ( $D$ ) 是一个 $\times p$ ( $\times p$ ) 的矩阵。它定义了惩罚作用在 $β\beta$ 的何种线性组合上。
  - 最简单的 $D$ 是单位矩阵 $I$ ( $I$ ) ( $m = p$ ( $m = p$ ))，此时 $∥Dβ∥1=∥β∥1=∣β1∣+∣β2∣+⋯+∣βp∣\| D\beta \|_1 = \| \beta \|_1 = |\beta_1| + |\beta_2| + \cdots + |\beta_p|$ . 这是最常见的Lasso惩罚，直接作用在每个系数上。
  - $D$ 也可以是其他矩阵，比如差分矩阵（让相邻系数变化平滑）或分组矩阵。论文没有具体指定，说明 $D$ 可以根据实际问题来设计。
- $λ\lambda$ ( $λ\lambda$ ):正则化参数。这是我们需要精心选择的超参数！
  - $λ=0\lambda = 0$ : 惩罚项消失，模型退化为无约束的期望分位数回归，容易过拟合（尤其在变量多时）。
  - $λ→∞\lambda \to \infty$ ( $λ→∞\lambda \to \infty$ )：惩罚力度无穷大，迫使 $DβD\beta$ 的所有分量趋向于0（如果 $D$ 是单位阵，则所有 $βj\beta_j$ 趋向于0），模型极度简化（可能只剩常数项），导致欠拟合。
  - 关键作用： $λ\lambda$ 在 模型复杂度 (尽量拟合数据) 和 防止过拟合 (简化模型，系数稀疏化) 之间进行权衡。合适的 $λ\lambda$ 能自动将一些不重要的 $βj\beta_j$ （或其线性组合）压缩到 正好等于0 ，实现特征选择。它还能提高模型的稳定性和泛化能力。
块 © $Cβ≥dC\beta \geq d$ :不等式约束
- $C$ ( $C$ ) 是一个 $\times p$ ( $\times p$ ) 的矩阵。
- $d$ ( $d$ ) 是一个 $q$ ( $q$ ) 维向量。
- 这代表了 $q$ ( $q$ ) 个线性不等式约束。例如：
  - 要求所有系数非负： $β1≥0,β2≥0,…,βp≥0\beta_1 \geq 0, \beta_2 \geq 0, \ldots, \beta_p \geq 0$ . 此时 $C$ 是单位矩阵 $I$ ( $I$ ) ( $q = p$ ( $q = p$ ))， $d$ 是零向量 $0$ ( $0$ ).
  - 要求系数 $β1+β2≥1\beta_1 + \beta_2 \geq 1$ : 此时 $\ldots, 0]$ ( $\times p$ ( $\times p$ )), $d = [1]$ .
  - 要求系数单调递增： $βj≤βj+1\beta_j \leq \beta_{j+1}$ . 此时 $C$ 的每一行对应一个相邻系数的差分约束（如 $\ldots]$ ）, $d$ 为零向量。
块 (d) $Eβ=fE\beta = f$ :等式约束
- $E$ ( $E$ ) 是一个 $\times p$ ( $\times p$ ) 的矩阵。
- $f$ ( $f$ ) 是一个 $s$ ( $s$ ) 维向量。
- 这代表了 $s$ ( $s$ ) 个严格的线性等式约束。例如：
  - 要求某些系数之和等于常数： $β1+β2+β3=4.3\beta_1 + \beta_2 + \beta_3 = 4.3$ (如公式 3.2)。此时 $\ldots, 0]$ ( $\times p$ ( $\times p$ )), $f = [4.3]$ .
  - 要求某个系数等于特定值： $β5=0.25\beta_5 = 0.25$ . 此时 $\ldots, 0]$ ( $\times p$ ( $\times p$ )), $f = [0.25]$ .

总结公式 (2.4)： 我们想找到一组回归系数 $β\beta$ , 它 最小化 期望分位数损失（聚焦于数据分布的特定位置），同时受到L1惩罚项的调节（控制复杂度，选择特征），并且严格满足一系列由先验知识或实际问题决定的线性不等式和等式约束。

2. 选择关键参数 λ：SIC 准则 (公式 2.5 & 2.6)

既然 $λ\lambda$ 如此重要，怎么选它呢？传统方法如交叉验证(CV)在高维数据（变量多，样本相对少）下容易 过拟合 。论文采用了Hu et al. (2015)和Liu et al. (2020)的思路，使用基于自由度的 Schwarz Information Criterion (SIC) ，也叫Bayesian Information Criterion (BIC)。它权衡模型的拟合优度和复杂度。

公式 (2.5)：
$SIC⁡(λ)=ln⁡(1n∑i=1nρi(τ)⏟权重(yi−μ^i,λ)2)⏟(e) 加权平均损失的对数+ln⁡n2ndf⁡(μ^λ)⏟(f) 复杂度惩罚项\operatorname{SIC}\left( \lambda \right) = \underbrace{\ln \left( \frac{1}{n} \sum_{i=1}^{n} \underbrace{\rho_i \left( \tau \right) }_{\text{权重}} \left( y_i - \widehat{\mu}_{i,\lambda} \right)^2 \right) }_{\text{(e) 加权平均损失的对数}} + \underbrace{\frac{\ln n}{2n} \operatorname{df} \left( \widehat{\mu}_{\lambda} \right) }_{\text{(f) 复杂度惩罚项}}$
$y^i,λ\widehat{y}_{i,\lambda}$ (公式里的 $μ^i,λ\widehat{\mu}_{i,\lambda}$ ): 这是当我们使用某个特定的 $λ\lambda$ 训练好模型后，对第 $i$ ( $i$ ) 个数据点的预测值。
块 (e) $ln⁡(1n∑i=1n[ρi(τ)⋅(yi−y^i,λ)2])\ln \left( \frac{1}{n} \sum_{i=1}^{n} \left[ \rho_i(\tau) \cdot (y_i - \widehat{y}_{i,\lambda})^2 \right] \right)$ :对数变换的加权平均损失
- $(yi−y^i,λ)2(y_i - \widehat{y}_{i,\lambda})^2$ : 第 $i$ 个点的预测误差（残差）的平方。
- $ρi(τ)\rho_i(\tau)$ (公式 2.6)：动态权重！ 这个权重依赖于残差的方向和当前的分位点 $τ\tau$ :
  $yi>μ^i,λ1−τ, if yi≤μ^i,λ\rho_i \left( \tau \right) = \begin{cases} \tau , & \text{ if } y_i > \widehat{\mu}_{i,\lambda} \\ 1 - \tau , & \text{ if } y_i \leq \widehat{\mu}_{i,\lambda} \end{cases}$
  - 如果真实值 $y_i$ 大于预测值 $y^i,λ\widehat{y}_{i,\lambda}$ (预测偏低)，权重 = $τ\tau$ .
  - 如果真实值 $y_i$ 小于或等于 预测值 $y^i,λ\widehat{y}_{i,\lambda}$ (预测偏高或正好)，权重 = $\tau$ .
- 为什么用这个权重？ 还记得损失函数 $ρτ(r)\rho_{\tau}(r)$ 是非对称的吗？这里的 $ρi(τ)⋅(ri)2\rho_i(\tau) \cdot (r_i)^2$ 其实就是 $ρτ(ri)\rho_{\tau}(r_i)$ 的等价形式！(可以对比公式 2.2 和 2.6)。所以里面这个求和 $]\frac{1}{n} \sum_{i=1}^{n} \left[ \cdots \right]$ 本质就是用这个特定 $λ\lambda$ 的模型在整个数据集上计算的平均期望分位数损失。
- $)\ln(\cdots)$ : 对平均损失取自然对数。做对数变换常能使数值更稳定，并且不影响比较大小（因为 $ln⁡\ln$ 是单调递增函数）。
- 含义： 这部分衡量模型用这个 $λ\lambda$ 拟合数据的好坏程度。值越小，拟合得越好（平均损失小）。
块 (f) $ln⁡n2n⋅df⁡(y^λ)\frac{\ln n}{2n} \cdot \operatorname{df}(\widehat{\mathbf{y}}_{\lambda})$ :复杂度惩罚项
- $df⁡(y^λ)\operatorname{df}(\widehat{\mathbf{y}}_{\lambda})$ :拟合值 $y^λ\widehat{\mathbf{y}}_{\lambda}$ 的自由度。 这是核心概念！
  - 在普通线性回归（OLS）中，自由度就是模型参数个数 $p$ ( $p$ )（如果包含截距）。
  - 在带L1惩罚的模型（如Lasso）中，自由度不再是简单的参数个数。它反映了模型的有效复杂度。直观上，它近似等于最终模型中被选入的 非零系数 的个数（或者更精确地说，是模型“活跃”的维度）。惩罚越强（ $λ\lambda$ 越大），被压缩到0的系数越多，自由度 $df⁡\operatorname{df}$ 就越小。
  - 计算 $df⁡\operatorname{df}$ 的具体方法依赖于模型和算法。Hu et al. (2015) 和 Liu et al. (2020) 提供了在分位数/期望分位数回归框架下估计自由度的方法。
- $ln⁡n2n\frac{\ln n}{2n}$ : 这是一个随着样本量 $n$ ( $n$ ) 增大而减小的缩放因子。
- 含义： 这部分惩罚模型的复杂度。模型越复杂（自由度 $df⁡\operatorname{df}$ 越大），这个惩罚项的值就越大。
SIC选择λ的原理：
- 我们尝试很多不同的 $λ\lambda$ 值（比如在一个网格上）。
- 对每个 $λ\lambda$ ，训练模型得到 $y^λ\widehat{\mathbf{y}}_{\lambda}$ 和 $df⁡(y^λ)\operatorname{df}(\widehat{\mathbf{y}}_{\lambda})$ .
- 对每个 $λ\lambda$ ，计算 $SIC⁡(λ)\operatorname{SIC}(\lambda)$ .
- 选择使 $SIC⁡(λ)\operatorname{SIC}(\lambda)$ 最小的那个 $λ\lambda$ ！
为什么SIC在高维下比CV好？
- CV（如K折交叉验证）需要多次分割数据训练模型评估验证误差，在高维小样本下，每次训练的数据子集更少，模型方差更大，评估结果不稳定，容易过拟合到验证集。
- SIC 直接基于训练好的单个模型计算（利用自由度估计复杂度），避免了数据分割带来的额外方差，通常在高维下表现更稳健。

总结 SIC： SIC 是一个评价模型好坏的标准。它说：“一个好的模型，既要能很好地拟合数据（块(e)小），又不能太复杂（块(f)小）”。我们选择那个让这个综合标准 $SIC⁡(λ)\operatorname{SIC}(\lambda)$ 达到最小的 $λ\lambda$ .

关键点回顾 (给初学者的Tips)：

目标特殊： 不是找平均线( $τ=0.5\tau = 0.5$ )，而是找数据分布中“偏低”或“偏高”部分的趋势线( $τ=0.25\tau = 0.25$ / $τ=0.75\tau = 0.75$ )。
损失不对称： 损失函数 $ρτ\rho_{\tau}$ 对“偏高”和“偏低”预测的惩罚力度不同，由 $τ\tau$ 控制。
怕过拟合/要选特征： $λ∥Dβ∥1\lambda \| D\beta \|_1$ 项，通过选 $λ\lambda$ 来控制模型复杂度，把不重要的变量影响压到0。 $D$ 矩阵决定了惩罚作用在哪些系数组合上。
加知识约束： $Cβ≥dC\beta \geq d$ , $Eβ=fE\beta = f$ 把“价格不能是负的”、“几个影响加起来必须是多少”这类专家知识或物理限制硬编码进模型。
选λ用SIC： 因为高维数据下交叉验证(CV)容易翻车（过拟合），SIC用自由度来更稳健地衡量模型复杂度，帮你挑出最好的 $λ\lambda$ 。SIC的计算依赖于那个动态权重 $ρi(τ)\rho_i(\tau)$ ，它确保了损失计算与 $τ\tau$ 的目标一致。
自由度(df)是核心： 在惩罚模型里， $df⁡\operatorname{df}$ 不再是简单数有几个 $β≠0\beta \neq 0$ ( $β≠0\beta \neq 0$ )，它更精确地刻画了模型实际用了多少“灵活度”去拟合数据，是SIC能有效工作的关键。