为什么协方差和相关系数是数据之间线性独立性的度量?

股票入门知识 | 发布于2021-11-26

为什么协方差和相关系数是数据之间线性独立性的度量?

图中显示了对应于由α表示的标准差的不同取值的散点图。如图 2.1 所示,当标准差小的时候,散点紧靠一条直线;当标准差大的时候,散点占据更宽的区域。

为什么协方差和相关系数是数据之间线性独立性的度量?

现在假设给定一组数据Yi,Xi。我们想要了解数据是否有线性函数关系,如果有的话,我们想要测量这种线性相关的强度。协方差和相关系数是这种线性相关性的度量直观上,协方差和相关系数度量两个变量一起变动的紧密程度如何。两个随机变量Y,X的协方差定义如下:

为什么协方差和相关系数是数据之间线性独立性的度量?

两个变量间的协方差关于变量均值进行了标准化,使其不受变量均值移动的影响。然而,它依赖于波动的大小。尤其是它依赖于变量的大小和计量单位。

通过除以变量的标准差,我们可以使协方差不依赖于变量的大小。相关系数是协方差除以各变量标准差的乘积。

为什么协方差和相关系数是数据之间线性独立性的度量?

为什么协方差和相关系数是数据之间线性独立性的度量?

线性相关系数度量的是两个变量间最终线性关系的强度,但是它不能度量变量间最终非线性函数关系的强度。特别要指出的是,即使变量间存在确定的非线性关系,相关系数也可能为0。例如,如果随机变量X均匀分布于区间[-1,+1],尽管变量x和X2存在明确定义的函数关系,但这两个变量是不相关的。

现在考虑变量x和Y=aX+b+ε。如果噪声项ε和X不相关,则X和Y的协方差就不受c影响,但是Y的方差却与变量e的方差有关。因此,给定两变量X和Y之间的个基本线性关系,通过加入与变量X不相关的噪声项,相关系数会被降低,协方差保持不变,而Y的方差增加。请注意,相关系数不依赖于a,也就不能衡量直线Y=aX+b的斜率。

飞鲸投研从多维度分析,整理了一份《成长50》的名单,可以关注同名公众号:"飞鲸投研":feijingtouyan,进行领取(点击复制)

该文观点仅代表作者本人,飞鲸投研系信息发布平台

/阅读下一篇/

协方差和相关系数的估计是什么?

热门推荐