前言

嘻嘻，刚开始搓逾期了快两周的线性回归实验报告，为了让报告稍微不那么平淡不得不啃论文。

本文从最基本的线性回归开始，对比不同正则化方法的特点和作用，推广到多任务问题并引出L2,1范数正则化，卑微小采购尝试去理解论文是如何思考和优化问题（

参考资料：

[1] 一文讲清楚线性回归(Linear Regression)、逻辑回归（Logistic Regression） - 掘金 (juejin.cn)

[2]一篇文章完全搞懂正则化（Regularization）-CSDN博客

[3] Efficient and Robust Feature Selection via Joint ℓ2,1-Norms Minimization (neurips.cc)

[4] L21范数用于多任务特征选择的一些思考 - 知乎 (zhihu.com)

一、线性回归回顾

1. 无正则化项

在最简单的线性回归问题[1]中，每个样本$x^{(i)} \in R^n$所对应的的标签$y$是一个值，因此用于预测的参数是一个向量$\theta \in R^n$，即

$\hat{y}^{(i)} = \theta^T x^{(i)} = (x^{(i)})^T \theta$

记所有的样本组成一个矩阵$X = (x^{(1)}, …, x^{(m)})^T, X \in R^{m \times n}$，所有的预测值组成一个向量$\hat{y} \in R^m$，则有

$\hat{y} = X \theta$

在此类问题中，常用梯度下降法或正规方程法求解使预测值最接近于标签的参数向量$\theta$[1]，以及添加正则化项防止过拟合

2. 带正则化项

在[2]中，提到了常见的正则化项包括L1正则化和L2正则化如下

L1正则化的线性回归问题：

$argmin_\theta \frac{1}{2m}\sum_{i=1}^m (\theta^T x^{(i)} - y^{(i)})^2 + \lambda \| \theta \|_1$ $argmin_\theta \frac{1}{2m} (X\theta - y)^T(X\theta - y) + \lambda \| \theta \|_1$

其中，

向量的L1范数指： $| \theta |_1 = \sum\limits_{i=1}^n |\theta_i|$

L2正则化的线性回归问题：

$argmin_\theta \frac{1}{2m}\sum_{i=1}^m (\theta^T x^{(i)} - y^{(i)})^2 + \frac{1}{2} \lambda \| \theta \|_2^2$ $argmin_\theta \frac{1}{2m} (X\theta - y)^T(X\theta - y) + \frac{1}{2} \lambda \| \theta \|_2^2$

其中，

向量的L2范数指：$| \theta |_2 = (\sum\limits_{i=1}^n |\theta_i|^2)^{\frac{1}{2}}$

两者的区别是，当我们进行梯度下降，对损失函数求导时，

L2正则化项的偏导为$\lambda \sum\limits_{i=1}^n | \theta_i |$，对绝对值较大的$\theta_i$，会给予较重的惩罚。由此造成的结果就是，$\theta_i$的绝对值会尽可能小

L1正则化项的偏导为$\lambda$，也就是说，无论$\theta_i$的大小，L1正则化项都给予相同的惩罚。由此造成的结果就是，许多$\theta_i$会尽可能变为0，从此达到稀疏化和特征选择的作用