协方差(covariance )是一个统计量,是对一个样本的某一统计特性给出的一个估算量。
常见统计量
均值估算的是样本集合的平均水平。
方差估算的是样本集合的散布度,单元维度偏离其均值的程度。
那协方差(covariance)呢?
如果是一维样本不存在协方差(covariance),
如果是二维(多维)样本呢?比如统计多个学科的考试成绩。
仿照方差的定义:
来度量各个维度偏离其均值的程度,协方差(covariance)可以这么来定义:
直觉理解一下就是:如果有X,Y两个变量,每个时刻(或点)的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”,但就不引申太多新概念了,简单认为就是求均值了)。
可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?你变大,同时我也变大,说明两个变量是同向变化正相关的,这时协方差就是正的。
从数值来看,协方差的数值越大,两个变量同向(正相关)程度也就越大。反之亦然。
variance和covariance的定义比较
还有一个就是协方差矩阵
协方差矩阵是一个描述多个随机变量之间的协方差的方阵。协方差是两个随机变量的线性相关程度的度量。
如果有n个随机变量X1,X2,…,Xn,那么它们的协方差矩阵Σ可以表示为
应用:协方差矩阵奇异值分解(SVD)
- 将X转置并与X相乘,等效于计算X和X在每个维度上对应坐标的内积。
- 内积反映了两个向量在某个维度上的相似程度,越相似内积越大。
- 因此的每个元素就是X和X在该维度上坐标的协方差
Σ是各主成分对数据方差的贡献,也就是各主成分的长度。它们不是权重,因为它们不一定加起来等于1。
奇异值分解可以看作是对矩阵S进行一个旋转、缩放和再旋转的操作,使得S变成一个对角矩阵³。这样可以提取出S的主要特征,例如方向、变化程度和线性相关性⁴。
应用:多维度高斯分布
多维高斯分布里面有两个参数,
一个是 ,可以用所以样本的均值来估计,代表总体数据的平均值。
一个是,就是前面的协方差矩阵,代表不同维度的相关联程度。
应用:PCA主成分析
本质上是找一个更低维度的表面(空间),使得投影到这个表面的数据与原数据之间的误差(距离)最小。
实现算法:
is Sigma is 协方差矩阵,是nxn方阵 ,在经过了normalization之后求得的Sigma,本质上代表了数据集n个维度的相互关系。
在经过svd分解之后,会得到三个矩阵:U、S和V。其中U和V是正交矩阵,S是对角矩阵,其对角线上的元素是协方差矩阵的奇异值,也就是特征值的平方根¹。这些奇异值可以反映协方差矩阵的主要成分,也就是数据的主要变化方向²,我们主要用的是U,因为根据彻底理解SVD奇异值分解,我们知道U的列向量是 Col( )的一组标准正交基。
还有,U的列向量是从左到右,重要性逐步降低的,所以要降到k维,只需要取U的前k个列向量,这样就把原来n维的坐标系,降到了k维单位正交的坐标系。
而新的数据集的值则可以表示为:
今天的文章什么是协方差函数_进行pca降维时,需要计算协方差矩阵[通俗易懂]分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/86364.html