M
Ridge罚回归的贝叶斯解释: Bayesian interpretation of regularization
普通OLS回顾
对于普通的OLS回归,当假设残差项为正态分布时,我们可以把它算作MLE(Maximum likelihood regression)
$y = \beta_0 + \beta_1 \times x_1 + \beta_2 \times x_2 + ... \beta_n \times x_n +e$
($\beta_0 + \beta_1 \times x_1 + \beta_2 \times x_2 + ... \beta_n \times x_n$用向量表示的话就是 $X\beta$)
$\text{Likelihood}: L(\beta|X) = p(Y|X, \beta)$
MLE的任务就是要最大化likelihood。
因为$e\text{服从} N(0, \sigma_e^2)$, 所以
$y \text{服从} N(X\beta, \sigma_e^2 I)$
因此, likelihood 可以表示为
$\text{Likelihood} ~ N(X\beta, \sigma_e^2 I) \propto exp(-\frac{1}{2\sigma_e^2}||Y-X\beta||^2)$
所以得出结论:需要找到让$||Y-X\beta||^2$最小的$\beta$
罚回归
这里要引入MAP的概念(maximum a posteriori estimate),是指最大化后验分布概率
罚回归相当于我们假设$\beta$的先验分布是正态分布$N(0, \tau^2 I)$其中$\tau$是未知常量
根据贝叶斯公式,可以得到
$p(\beta|X,Y) \propto p(Y|X, \beta) p(\beta)$
$\text{Likelihood} \propto exp(-\frac{1}{2\sigma_e^2}||Y-X\beta||^2) \times exp(-\frac{1}{2\tau^2}||\beta||_2^2)$
最大化likelihood就是最小化$||Y-X\beta||^2+\frac{\sigma_e^2}{\tau^2}||\beta||_2^2$
其中$\frac{\sigma_e^2}{\tau^2}$就是参数$lambda$