线性回归的局限性

Tavish Aggarwal.

在上一篇文章中,我们讨论了一个 简单的线性回归详细说明。我建议您通过帖子,详细了解简单的线性回归。线性回归必须找到最佳拟合线的假设。

笔记: 对于简单和多线性回归,此假设保持了真实。

让我们了解线性回归的假设并详细讨论它们。

线性回归的局限性

我们无法在任何数据集中盲目地应用线性回归。数据必须在约束中,这样我们就可以在其上应用线性回归算法。有一些限制需要满足。这些都是:

  • 线性
  • 恒定错误方差
  • 独立的错误术语或无残留的自相关
  • 正常错误
  • 多型子性
  • 交异性或省略可变偏差

线性

目标北京快3app与独立北京快3app之间的关系必须是线性的。

线性关系与独立和依赖北京快3app之间没有关系
线性关系与独立和依赖北京快3app之间没有关系

有时,直线可能不是恰当的数据,我们可能需要选择root,square root,log等下的多项式函数,以适合数据。让我们来看看下面显示的一个例子:

平方线性
Ploynomial功能图:平方根

笔记: 即使我们使用非线性功能,但曲线的性质仍然是线性的,因为我们使用多项式函数将新术语添加到线性函数。

恒定误差方差(同性恋或无异形骨骼)

同性化性地描述了误差项在独立北京快3app的所有值中相同的情况。

如果我们有一个数据集,其中数据或方差的传播随着x的增加而增加,那么存在问题。在这种情况下使用线性回归不是最好的想法。

或者换句话说,点的残差不应遵循任何模式。让我们在依赖和独立北京快3app之间绘制散点图:

const_error_variance.

为了检查数据的异质迹,我们绘制剩余地图和预期的结果是绘图应该随机分布,不应该有任何模式。

//github.com/tavishaggarwal/Data-Science-Learning/blob/master/Supervised%20Learning/Linear%20Regression%20Limitations/residual_plot.png?raw=true
剩余情节

独立的错误术语或无残留的自相关

残余项不应依赖于之前的残差项。或者换句话说,y(x)取决于y(x + 1)。当我们处理时间序列相关数据时,此假设是有道理的。

考虑股价的一个例子,目前价格取决于以前的价格。这违反了独立错误术语的假设。

独立错误术语
错误术语不是独立的

笔记: 在上面所示的示例中,我们已经绘制了残留的图,并且清楚地,我们可以看到残差取决于先前的残余。

正常错误

剩余应遵循钟形分布,其平均值为0.换句话说,如果我们绘制残留项的直方图,它应该是具有恒定标准偏差的平均靠近0的钟形曲线。

error_normal_distribution.
正常分布后的残余术语

错误的正常假设是重要的,因为在预测各个数据点的同时,围绕该预测的置信区间假定差分是通常分布的。

如果我们想放松正常假设,我们必须使用“广义线性模型”。

多型子性

当独立北京快3appx取决于其他自北京快3app时,发生多色性。 

在具有相关北京快3app的模型中,很难弄清楚独立和相关北京快3app之间的真实关系。换句话说,难以解决哪个独立北京快3app实际上是有助于预测所属北京快3app。

另外,通过相关北京快3app,独立北京快3app的系数取决于数据集中存在的其他北京快3app。如果发生这种情况,我们将结束不正确的独立北京快3app的结论,这导致了依赖北京快3app的预测。

检查多型原因的最佳方法是通过绘制热爱图。具有高相关的北京快3app是多型性。

热线图
Sklearn波士顿数据集的热线图

笔记: 截至目前,我们只是处理具有单个独立北京快3app的模型。当我们移动到具有多个自北京快3app的线性回归模型时,这将是有意义的。

交异性或省略可变偏差

在我们理解Exogeneity之前,必须知道当我们生成线性回归线时,重要的是,存在与它相关的错误。 (它与残余不同)。

Y = AX1 + BX2 +。 。 。 。 。 + NXN + \ varepsilon.

在哪里 \ varepsilon.  表示影响目标北京快3app的所有因素,并且不包含在模型中。

考虑一个特征A,其不包括在模型中。所以这是错误术语的一部分。并且A与X2和Y北京快3app具有高相关。这将使系数B偏置,并不是真正的系数。 (即样本不是人口价值的反映)

或者换句话说,北京快3app与模型中的独立北京快3app相关,并且具有错误项。和估计的真实模型是:

y_ {i} = \ alpha + \ beta x_ {i} + \ gamma z_ {i} + u_ {i}

但是当我们运行回归时,我们会省略Zi。因此,ZI将被错误术语吸收,我们实际将估计:

y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}      (where \ varepsilon _ {i} = \ gamma z_ {i} + u_ {i})

如果相关的话 x and z is not 0 and z separately affects y, 然后 x 与错误项相关联 \ varepsilon. .

因此,当统计模型离开一个或多个相关北京快3app时,发生重生或省略的可变偏差。

处理内正性问题的最佳方法是通过仪器北京快3app(iv)技术。最常见的IV估计器是两个阶段最小二乘。 (TSL)

概括

在这篇文章中,我们讨论了线性回归的局限性。我们做了详细的分析,以了解每个限制以及如何在模型中检测它们。

请在下面的“评论”部分中告诉我您的意见。

作者信息

Tavish Aggarwal.

网站: http://tavishaggarwal.com

Tavish Aggarwal.是一个数据科学家 在一个海德拉巴工作,具有广泛的经验,在跨电子商务,财务,医疗保健等等不同领域解决现实世界的业务问题。 他对技术充满热情,喜欢在团队中工作。