深入理解协方差（图文详解）

先从方差开始，我们有一组样本x1、x2、x3····xn，这组样本的均值为EX，每一个样本都与EX之间存在误差，那么这组样本的方差被定义为：所有误差的和的均值，也即[Σ(xi-EX)^2]/(n-1)，

方差的作用就是用来“衡量样本偏离均值的程度”。

下面开始看协方差：

仔细观察上述定义式，可知：如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值；如果两个变量的变化趋势相反，即其中一个变量大于自身的期望值时另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。

下面再从直观上理解一下上面这段话，假设我们拿到了一组（X, Y）的样本如下图（a）所示。然后让这组样本中的X、Y各自减掉自己的期望，得到新的一组样本，显然这组新样本的均值就变成了（0，0），这组新样本会分布在原点周围，如下图（b）所示。如果我们再把图b中的样本的每一个点的X乘以Y得到积，把积画在图（c）中，那么图b的二维样本就会退化为一系列一维的点，而且，下图b的一三象限的点的积会分布到下图c的正半轴，二四象限的点会分布到负半轴，，根据上面的定义式，图c中样本的均值，就是图1中XY的协方差，从直观上看它的均值接近于0，物理意义就是，X和Y是几乎完全不相关。

图a 图b 图c

注意：上面的协方差定义中，EX和EY是数学期望，是个精确的理论值，而不是样本均值（样本数目无穷多时，样本均值会无穷接近于数学期望，这是大数定律之一，证明过程大学都学过的，可惜忘干净了），但是X、Y在没有理论概率分布表达式的情景中，我们只能用n个样本的和除以n来代替数学期望。

下面我们再来看一个X和Y正相关的例子，也即在某次我们同时对xy采样时，当x的采样值＞x的均值时，y的样本也一般是＞y的均值。

图a图b图c

XY的采样值如上图a所示，各自减掉自己的均值后，得到的新样本如图b所示，图b中的样本中的每个点把x*y，得到一维样本如图c所示，显然，由图b转换为图c的时候，只有图b中第二象限的两个点落到了图c的负半轴，图b的其余点都落到了图c的正半轴，图c中样本的均值显然是个正值，这个正值就是图a的样本的协方差。

图c的均值很大，也就是说图a的样本的协方差很大，那么分析一下图c的均值大的原因，那是因为图b中的点x*y的积大，为什么积这么大，因为图a的X、Y的样本偏离各自的均值EX、EY太大了。换句话说，如何才能使得图c中的样本均值变小呢，也即如何才能使图a的样本的协方差变小呢？显然有两个办法：（1）让图c中的每一个点的数值变小，也即让图b中的点都靠近原点，也即让图a的点都靠近X、Y各自的均值；（2）增加图c中负半轴的点的数量，也即增加图b中二四象限中的点的数量，也即让图a的点在反对角线上也出现一些。这两种方法也就指出了，协方差小的原因：一是X、Y各自的方差要小，二是X、Y相关性要若。

根据以上两组图形，以及分析，我们得知：

两个因素会影响协方差的值：

1、两个变量各自的方差不变的情况下，两个变量的正相关性越强烈，协方差越大，负相关性越强烈，协方差越小；

2、两个变量的相关性不变的情况下，x或y变量的方差越大，协方差的绝对值越大。(“或”的意思是，x的方差大，或者y的大，或者它俩的都大)；

因素1对协方差的影响是“绝对”大小（带符号），因素2影响的是“绝对值”的大小

反过来的推论: 如果协方差的值是个很大的正数，我们可以得到两个结论：

（1）两者有很大概率是正相关的；

（2）这个值很大到底是因为①：正相关很强烈造成的呢？还是②：x或y的方差很大造成的呢，这个①和②我们是区分不出来的

注意上面的（1）我们说很大概率正相关，而不是说一定正相关，这么大的正值，难道还不是强烈正相关吗？！！原因是什么？就在于②，因为采样并不能完全代表真实情况，假设两者是微弱正相关，或者不相关，或者微弱负相关，这3种情况采样的结果计算出的协方差都有可能是正值，这时即使X、Y不是强烈正相关，只要x或y的方差大，仍然会造成协方差变成大的正数。
那么如何衡量正负相关性呢，显然要把x或y的方差，从对协方差的影响中剔除掉，这样协方差剩余的部分就能看出相关性的强烈程度了。剔除的方法也很简单，协方差除以xy的标准差就行了。得出的结果就被成为相关系数

为什么剔除信息的方法是除以标准差呢？其实从协方差的定义式就能看出端倪，E[(X-EX)(Y-EY)]，显然协方差的绝对值变大的根本原因就是每一个(X-EX)(Y-EY)变大