套索和山脊回归详细说明

Tavish Aggarwal.

线性回归 我们看到模型的复杂性没有控制。线性回归仅尝试最小化错误(例如MSE),并且可能导致任意复杂的系数。

我们正在开发的模型应该尽可能简单,但并不能简单。

正规化是用于创建最佳复杂模型的过程,即,在训练数据上良好的同时尽可能简单的模型。 

偏差差异权衡

我们可以从上面所示的图表中看到,我们的模型不应该非常复杂,同时,它不应该是非常天真的。

因此,我们有正常的回归,这是对线性回归的改进,并监视模型的复杂性。两个最常见的正则化技术是:

  • Ridge回归
  • 套索回归

另外,请注意,与目标是最小化误差项的线性回归不同,正则化回归的目标具有两个部分,即误差项和正规术语。  

让我们定义最常见的正则化技术RIDGE和套索回归。

Ridge回归

RIDGE回归(L2正则化)是我们将系数的平方和误差项添加的总和。这将有助于控制模型的复杂性:

  • 如果我们希望最小化成本函数,那么系数需要小。这样做会保持模型复杂性。
  • 另一方面,如果我们的系数大而且复杂,那么成本函数将受到惩罚。

尚未称为RIDGE回归的目标函数是:

$$成本(w)= \ sum_ {i = 1} ^ n(y_i - w ^ tx_i)^ 2 + \ sum_ {i = 1} ^ k \ lambda w_i ^ 2 $$

在哪里,

  • \(w_i ^ 2 \)(系数的平方之和)是由正则化系数\(\ lambda \)控制的正则化术语。 
  • \(\ sum_ {i = 1} ^ n(y_i - w ^ tx_i)^ 2 \)是错误项。
  • \(\ lambda \)是决定我们想要惩罚模型灵活性的级别的调整参数。

这里的目的是不仅最小化了错误术语,还需要最小化添加正则化术语。因此,它将有助于控制模型的较高系数。

矩阵表示:

$$ \ bar \ alpha =(x ^ tx + \ lambda i)^ { - 1} x ^ ty_i $$

笔记: 在线性的中断,oc oc of oc \(\ bar \ alpha =(x ^ tx)^ { - 1} x ^ ty_i \),我们不能求求x矩阵是可逆的,或者换句话说,存在矩阵的反比。但是在这里,如果ridge正则化\((x ^ tx + \ lambda i)\)更可能是可逆的。 (即矩阵的决定簇是非零)

我们使用类似于线性回归的渐变下降来查找最佳最低解决方案:

$$ \ frac {\ partial} {\ partial w_j}成本(w)= -2 \ sum_ {i = 1} ^ nx_i \ {y_i-w ^ tx_i \} + 2 \ lambda w_j $$

除非我们达到最佳解决方案,否则我们重复上述步骤:

$$ = w ^ t_j - \ eta [-2 \ sum_ {i = 1} ^ nx_i \ {y_i-w ^ tx_i \} + 2 \ lambda w_j] $$

套索回归

套索回归(L1正则化也称为最低绝对收缩和选择操作员)是另一个在惩罚较高系数方面与脊回归不同的另一个变化。

套索回归的成本函数是:

$$成本(w)= \ sum_ {i = 1} ^ n(y_i - w ^ tx_i)^ 2 + \ sum_ {i = 1} ^ k \ lambda | w_i | $$

在哪里,

  • w是模型的权重,\(\ lambda \)是正则化系数或正则化QuandParameter。
  • \(| w_i | \)(绝对值的总和)是由正则化系数\(\ lambda \)控制的正则化术语。 
  • \(\ sum_ {i = 1} ^ n(y_i - w ^ tx_i)^ 2 \)是错误项。

由于我们能够使用梯度下降来汇聚Ridge回归的成本函数,因此Lasso回归不可能。原因是在这里添加的正则化术语在x = 0处不分辨率。

因此,我们使用不同的技术称为坐标血统来查找最佳解决方案。

通过套索回归,我们最终得到了一个稀疏的解决方案,其中一些模型参数或系数为零。目的是找到目标函数最低的θ。

$$ \ theta ^ * = argmin [e(\ theta)+ \ lambda r(\ theta)] $$

其中\(e(\ theta)\)表示错误函数,\(\ lambda r(\ theta)\)表示正则化术语。

实验观察是\(\\稀疏性(\ theta ^ *)\)(\(\ theta ^ * \)的参数数与零相等。)随着\(\ lambda \)的增加而增加。

山脊和套索回归比较

  1. 岭回归几乎总是对解决方案的矩阵表示,而套索需要迭代以进入最终解决方案。所以套索回归是计算更加密集的。

  2. 套索回归最重要的好处之一是它导致模型参数,使得较小的重要特征系数变为零。换句话说,套索回归间接执行特征选择。

  3. 与套索相比,Ridge回归在相关特征的情况下更好。由于使用脊所有功能都包含在模型中,但根据相关性,系数将分布在其中。

为什么套索给出稀疏解决方案?

您还在想知道Lasso回归如何帮助我们在功能选择中吗?在继续和了解套索回归后如何提供稀疏解决方案,重要的是要了解:

  1. 功能的轮廓
  2. 错误和正规术语之间的权衡

功能的轮廓

由于平面上的每个点具有与其相关联的函数值,因此轮廓是功能值是相同的所有点的连接。

函数f(α)的轮廓是满足等式f(α)= c的点的迹线(轨迹),用于一些常数c。

轮廓的几个有趣的属性:

  1. 没有两个轮廓可以相交:函数不能为x和y的组合具有两个不同的值。 (在二维空间中)
  2. 两轮廓可以切向来。

请参阅下面显示的示例演示圆圈的轮廓图和线路:

import matplotlib.pyplot as plt

def Circle(x,y):
    return (x*x+y*y)

def Line(x,y):
    return (x+y)

xx = np.linspace(-2,2,400)
yy = np.linspace(-2,2,400)
[X,Y] = np.meshgrid(xx,yy)

Z_circle = Circle(X,Y)
Z_line = Line(X,Y)

plt.contour(X,Y, Z_circle)
plt.show()

plt.contour(X,Y, Z_line)
plt.show()

输出:

轮廓图

错误和正规术语之间的权衡

我们已经看到,具有正则化术语的错误术语是:

$$ \ theta ^ * = e(\ theta)+ \ lambda r(\ theta)$$

当我们增加λ的值时,误差项将增加,正则化术语将减少,当我们减少λ值时会发生相反的。这个陷阱的证明是:

考虑一个方案,其中我们有\(\ lambda_1 \)和\(\ lambda_2 \),并且最佳成本函数分别为value \(\ theta_1 \)和\(\ theta_2 \)。所以,

$$ e(\ theta_1)+ \ lambda_1 r(\ theta_1)\ le e(\ theta_2)+ \ lambda_1 r(\ theta_2)$$

$$ e(\ theta_2)+ \ lambda_2 r(\ theta_2)\ le e(\ theta_1)+ \ lambda_2 r(\ theta_1)$$

在重新排列以上的两个方程之上我们得到:

$$ \ lambda_2(r(\ theta_2) - r(\ theta_1))\ le e(\ theta_1) - e(\ theta_2)\ le \ lambda_1(r(\ theta_2) - r(\ theta_1))$$

正如我们所知的那样,\(\ lambda_1 \)\(\ lambda_2 \)暗示\(\ lambda_1 \ gt \ lambda_2 \),\(e(\ theta_1)\ ge e(\ theta_2)\)和\( r(\ theta_1)\ le r(\ theta_2)\)。

思考的最后一点是我们发现我们想要降低成本和正则化功能的θ的最佳值。 Theta的值应该是成本函数和正则化函数彼此切向的值。

这是其中的原因是如果两个函数相交,则为θ的值。然后保持其中一个值修复了正则化或成本函数,我们可以找到相反函数的另一个最小值。

使用套索回归的功能选择

    在理解为什么套索有助于特征选择。让我们看看为什么Ridge回归不会产生稀疏的解决方案。请参阅下面的图表:

    山脊正规化

    在上面所示的图中,橙色轮廓表示正则化术语轮廓和蓝色轮廓代表错误术语轮廓。并且误差项和正则化术语彼此切向的点是可能最小化成本函数的可能最佳解决方案。

    两个轮廓在x或y轴上将彼此切向的机会非常不可能发生。因此很难有稀疏的解决方案。

    但在套索正则化的情况下,有很高的机会,两轮廓在X或Y轴上彼此相切。请参阅下图:

    套索正规化

    因此,套索生成稀疏解决方案,因为特征的系数为零。为什么轴上错误轮廓相交的几何证明超出了这篇文章的范围。

    概括

    在这篇文章中,我们了解我们需要定期的回归来控制模型的复杂性。我们看到了两种正规化的技术:

    1. 套索正规化
    2. 山脊正规化

    我们了解了Lambda(普通的正常回归)如何有助于控制模型复杂性。我们详细了解套索和岭回归,并学习为什么套索正规化导致稀疏解决方案。

    作者信息

    Tavish Aggarwal.

    网站: http://tavishaggarwal.com

    Tavish Aggarwal.是一个数据科学家 在一个海德拉巴工作,具有广泛的经验,在跨电子商务,财务,医疗保健等等不同领域解决现实世界的业务问题。 他对技术充满热情,喜欢在团队中工作。