Lasso回归问题的背景是解决传统回归问题中变量太多的问题,作为一种变量选择方法被提出。

minYβTX22+λi=1pβi\operatorname{min}\, ||Y-\beta^T X||_2^2+\lambda\sum_{\boldsymbol{i}=\boldsymbol{1}}^p |\beta_i|

lasso回归的求解难点在于目标函数不可导(含有绝对值),当X是正交矩阵或单位阵的时候,问题会变得容易求解:

β^=sgn(y)(yλ)={yλ,y>λ0,λyλy+λ,y<λ\hat{\beta}=sgn(y)\left(|y|-\lambda\right)=\left\{\begin{array}{l} y-\lambda, \quad y>\lambda \\ 0, \quad-\lambda \leq y \leq \lambda \\ y+\lambda, \quad y<-\lambda \end{array}\right.

Lasso的优缺点:

  • 与Ridge回归的比例收缩相比(除法),Lasso回归的参数收缩是过滤收缩(减法),因此Lasso回归的系数可以为0,进而起到了变量选择的作用。
  • Lasso采取L1正则化方法,与Ridge回归相比,计算速度会更快
    同样需要注意Lasso有如下缺点:
  • 模型中变量高度相关时,Lasso模型容易误选变量(选择了)
    可以证明,上述问题的解与下式的解相同:

minY((IXTX)β+XTY)22+λi=1pYi\operatorname{min}\, ||Y-\left((I-X^TX)\beta+X^TY\right)||_2^2+\lambda\sum_{\boldsymbol{i}=\boldsymbol{1}}^p |Y_i|

在这个式子里YYβ\beta的地位是相反的

参数选择

岭回归参数选择一致,注意AIC容易over-selection(AIC对参数个数惩罚力度小)