这一章,于我而言,很难写。因为之前都没有考虑过为什么会有,只是很熟练地运用期望方差和协方差的公式来计算,但是没有真正理解是为什么会有这些东西,它们都有什么意义。这典型的就是做题做多了,却缺乏思考,于是现在我来补债了。
文章目录
主要内容:
- 矩
- 期望
- 方差
- 协方差
- 相关系数
- 变异系数
- 偏度、峰度
概述之瞎逼逼
数值的特征,即数字的特点。一般的积极消极、外向内向、优秀普通等都是在描述一个人的特征,它们有一个共同的特点都是精炼、具有代表性的。同理,在描述数字的特征时,我们也需要找到那些对代表数字特点的说法来描述数字。
在没有系统的学习这些知识之前,我们就有过这样描述数字的方法,比如某个学生小花,她的数学成绩一般为120,最高135,最低110,且成绩很稳定。
成绩一般为120(均值、期望),说明在平常考试中,小花取得120分的概率会很大,或者在多次考试中,小花的成绩很可能会为120;最高最低分就给定了小花成绩的波动范围(极差),在一般情况下,她的成绩不会超出这个范围(极差);最后的稳定性(方差小)说明小花的成绩不会发生很大的变动,一般会在120 18 123 125 变动,不会一下子110,一下子140.
从她的考试成绩中,我们可以得到这些描述,它们能够给出一个总体性的认识,即有了这些信息,我们就了解了小花的成绩情况了。
但是在课本上这些东西似乎是一下子就给我们的,对于一般学生而言,都知道怎么计算期望方差和协方差相关系数那些,但是有没有多少人想过,为什么要研究这个东西?怎么就有这个东西了?
以下就写下了我自己的思考。
为什么要研究随机变量的数字特征?
因为我们有的时候并不仅仅只关注随机变量的分布,很多时候仅仅知道它的分布就可以进行分析。
例如我们一般只想知道一个随机变量的一般水平,也就是随机变量的平均水平。对于小麦的产量,我们一般只想知道它的一般产量,除此之外,可能还想知道不同地区小麦产量的波动变化情况等。这里就需要引进新的特征来帮助我们获取这些认识,一般水平用期望来表示,波动情况用方差来表示。
简单点讲,研究数字特征是将变量所蕴含的信息浓缩了,提炼了出来。
为了我们方便地引入各种数字特征,首先我们介绍一种最简单的数字特征,矩,有原点矩和中心矩,各自又分别有绝对中心矩之分。
随机变量的期望(Expectation)
期望反映一个随机变量的平均水平,是可以映射到随机变量的均值上来的,相当于是加权算术平均数。
在统计学原理中,有
x ˉ = x 1 f 1 + x 2 f 2 + ⋯ + x n f n f 1 + f 2 + ⋯ + f n \bar x = \cfrac{x_1f_1+x_2f_2+\cdots + x_nf_n}{f1+f_2+\cdots+f_n} xˉ=f1+f2+⋯+fnx1f1+x2f2+⋯+xnfn
表示(加权算数)平均数,其中的加权平均是对分组数据来计算的, f 1 , f 2 , ⋯ , f n f_1,f_2,\cdots,f_n f1,f2,⋯,fn分别表示第1组到底 n n n组的频数。
令 f 1 ∗ = f 1 f 1 + f 2 + ⋯ + f n f 2 ∗ = f 2 f 1 + f 2 + ⋯ + f n ⋯ f n ∗ = f n f 1 + f 2 + ⋯ + f n f_1^*=\cfrac{f_1}{f1+f_2+\cdots+f_n} \\ f_2^*=\cfrac{f_2}{f1+f_2+\cdots+f_n} \\ \cdots \\ f_n^*=\cfrac{f_n}{f1+f_2+\cdots+f_n} f1∗=f1+f2+⋯+fnf1f2∗=f1+f2+⋯+fnf2⋯fn∗=f1+f2+⋯+fnfn
其中 f 1 ∗ , f 2 ∗ , ⋯ , f n ∗ f_1^*,f_2^*,\cdots,f_n^* f1∗,f2∗,⋯,fn∗分别表示 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn出现的频率。
由(伯努利)大数定律,当随机变量的序列数 n → + ∞ n \to +\infty n→+∞时,频率是依概率收敛于概率的,即可以利用频率来近似计算概率。在前面讲述到概率的统计意义时,是用频率来定义概率的。因此,在这里,当我们将求平均数的想法对应到求概率上来时,也可以将频率对应概率上来,就可以引入求随机变量期望的公式。同时,也可以用期望来反映随机变量的平均水平。
离散型随机变量的期望
如果所有变量值乘以其发生概率的代数和有限,则就说明这个这个随机变量的数学期望存在。那么称 ∑ i = 1 ∞ x i p i \sum_{i=1}^\infty x_ip_i ∑i=1∞xipi为随机变量的期望。
严谨点,对应到课本上的说法。
设离散型随机变量X的概率分布列为 P ( X = x i ) = p i ( i = 1 , 2 , ⋯ ) P(X=x_i)=p_i(i=1,2,\cdots) P(X=xi)=pi(i=1,2,⋯).若 ∑ i = 1 ∞ ∣ x i ∣ p i < + ∞ \sum_{i=1}^\infty |x_i|p_i<+\infty ∑i=1∞∣xi∣pi<+∞,则称 ∑ i = 1 ∞ x i p i \sum_{i=1}^\infty x_ip_i ∑i=1∞xipi为 X X X的数学期望,记为 E X EX EX.简称为期望或均值。即 E X = ∑ i = 1 ∞ x i p i EX=\sum_{i=1}^\infty x_ip_i EX=i=1∑∞xipi
这里的绝对级数收敛和下面的积分的绝对收敛,从而可以推出期望的存在,其中的数学原理是,绝对收敛,则一定收敛,无论是一般的级数还是积分,都具有这个性质。
连续型随机变量
则就要求所有随机变量的取值乘以其密度函数在其取值区域中的积分,如果收敛的话,就可以认为这个连续型随机变量的期望存在。
设X为连续型随机变量,其概率密度函数为 f ( x ) f(x) f(x),若积分 ∫ − ∞ + ∞ ∣ x ∣ f ( x ) d x \int_{-\infty}^{+\infty}|x|f(x)\rm dx ∫−∞+∞∣x∣f(x)dx收敛,则称积分值 ∫ − ∞ + ∞ x f ( x ) d x \int_{-\infty}^{+\infty}xf(x)\rm dx ∫−∞+∞xf(x)dx为 X X X的 数学期望,记为 E X EX EX,简称期望或均值,即 E X = ∫ − ∞ + ∞ x f ( x ) d x . EX=\int_{-\infty}^{+\infty}xf(x)\rm dx. EX=∫−∞+∞xf(x)dx.
随机变量函数的期望
求随机变量函数的期望一般有两种方法:
- 先求随机变量函数的分布,再求新的随机变量的期望。
- 直接利用一个定理,来求得随机变量函数的期望,而不需要计算随机变量函数的分布。
离散
设 y = g ( x ) y=g(x) y=g(x)是连续函数,而 Y = g ( x ) Y=g(x) Y=g(x)是随机变量 X X X的函数,
若 X X X是离散型随机变量,分布列为 P ( X = x i ) = p i , i = 1 , 2 , ⋯ , P(X=x_i)=p_i,\qquad i=1,2,\cdots, P(X=xi)=pi,i=1,2,⋯,
且级数 ∑ i = 1 ∞ ∣ g ( x i ) ∣ p i \sum_{i=1}^\infty |g(x_i)|p_i ∑i=1∞∣g(xi)∣pi收敛,则 E Y = E g ( X ) = ∑ i = 1 ∞ g ( x i ) p i ; EY=Eg(X)=\sum_{i=1}^\infty g(x_i)p_i; EY=Eg(X)=i=1∑∞g(xi)pi;
连续
设 y = g ( x ) y=g(x) y=g(x)是连续函数,而 Y = g ( x ) Y=g(x) Y=g(x)是随机变量 X X X的函数,
若 X X X是概率密度为 f ( x ) f(x) f(x)的连续型随机变量,且积分 ∫ − ∞ + ∞ ∣ g ( x ) ∣ f ( x ) d x \int_{-\infty}^{+\infty}|g(x)|f(x)\rm dx ∫−∞+∞∣g(x)∣f(x)dx收敛,则 E Y = E g ( X ) = ∫ − ∞ + ∞ g ( x ) f ( x ) d x . EY=Eg(X)=\int_{-\infty}^{+\infty}g(x)f(x)\rm dx. EY=Eg(X)=∫−∞+∞g(x)f(x)dx.
二维:
设 Z = g ( X , Y ) Z=g(X,Y) Z=g(X,Y)是随机变量 ( X , Y ) (X,Y) (X,Y)的函数, g ( x , y ) g(x,y) g(x,y)连续,又 ( X , Y ) (X,Y) (X,Y)的联合密度为 f ( x , y ) f(x,y) f(x,y),若积分 ∫ − ∞ + ∞ ∫ − ∞ + ∞ ∣ g ( x , y ) ∣ f ( x , y ) d x d y \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}|g(x,y)|f(x,y) \rm dxdy ∫−∞+∞∫−∞+∞∣g(x,y)∣f(x,y)dxdy收敛,则 E Z = E g ( X , Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ g ( x , y ) f ( x , y ) d x d y EZ=Eg(X,Y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y) \rm dxdy EZ=Eg(X,Y)=∫−∞+∞∫−∞+∞g(x,y)f(x,y)dxdy
期望的性质
- 常数的期望为其值本身。即设 C C C为常数,则 E C = C ; EC=C; EC=C;
- 对任意 n ≥ 1 , n \ge 1, n≥1,任意常数 k 1 , k 2 , ⋯ , k n k_1,k_2,\cdots,k_n k1,k2,⋯,kn有 E ( ∑ i = 1 n k i X i ) = ∑ i − 1 n k i E X i ; E(\sum_{i=1}^nk_iX_i)=\sum_{i-1}^nk_iEX_i; E(i=1∑nkiXi)=i−1∑nkiEXi;
- 当 n ≥ 1 , n \ge 1, n≥1,,若 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn相互独立,则 E ( ∏ i = 1 n X i ) = ∏ i = 1 n E X i ; E(\prod_{i=1}^nX_i)=\prod_{i=1}^nEX_i; E(i=1∏nXi)=i=1∏nEXi;
- 若 X ≥ 0 , X \ge 0, X≥0,则 E X ≥ 0 ; EX \ge 0; EX≥0;若 X 1 ≥ X 2 , X_1 \ge X_2, X1≥X2,则 E X 1 ≥ E X 2 ; EX_1 \ge EX_2; EX1≥EX2;
- ∣ E X ∣ ≤ E ∣ X ∣ ; |EX| \le E|X|; ∣EX∣≤E∣X∣;
- 柯西-施瓦兹(Cauchy-Schwarz)不等式:若 E X 2 , E Y 2 EX^2,EY^2 EX2,EY2均存在,则 E ( X Y ) E(XY) E(XY)存在,且 [ E ( X Y ) ] 2 ≤ E X 2 E Y 2 ; [E(XY)]^2 \le EX^2EY^2; [E(XY)]2≤EX2EY2;
证明简要补充:
- 类似于两点分布, p ( x ) = { 1 , x = C 0 , x ≠ C p(x)=\left\{ \begin{aligned} 1, &&x= C\\ 0, && x \ne C \end{aligned} \right. p(x)={
1,0,x=Cx=C - 略。
- 相互独立定义,
E ( ∏ i = 1 n X i ) = k 1 k 2 ⋯ k n p ( X 1 = k 1 , X 2 = k 2 , ⋯ , X n = k n ) = k 1 p ( X 1 = k 1 ) k 2 p ( X 2 = k 2 ) ⋯ k n p ( X n = k n ) = E X 1 E X 2 ⋯ E X n = ∏ i = 1 n E X i \begin{aligned}E(\prod_{i=1}^nX_i) & =k_1k_2\cdots k_np(X_1=k_1,X_2=k_2,\cdots, X_n=k_n) \\ & =k_1p(X_1=k_1)k_2p(X_2=k_2)\cdots k_np(X_n=k_n) \\ & =EX_1EX_2 \cdots EX_n \\ & =\prod_{i=1}^n EX_i \end{aligned} E(i=1∏nXi)=k1k2⋯knp(X1=k1,X2=k2,⋯,Xn=kn)=k1p(X1=k1)k2p(X2=k2)⋯knp(Xn=kn)=EX1EX2⋯EXn=i=1∏nEXi - 概率 p p p大于等于0,前者得证;后者 X 1 − X 2 ≥ 0 X_1-X_2 \ge 0 X1−X2≥0,由前者得证。
- − ∣ X ∣ ≤ X ≤ ∣ X ∣ -|X| \le X \le |X| −∣X∣≤X≤∣X∣,利用上式,即可证明。
- 利用性质4和方程的的根,即可证得。
具体: ( X − t Y ) 2 ≥ 0 (X-tY)^2 \ge 0 (X−tY)2≥0, 则 E [ ( X − t Y ) 2 ] ≥ 0 E[(X-tY)^2] \ge 0 E[(X−tY)2]≥0,
展开: E X 2 − 2 t E X Y + t 2 E Y 2 EX^2-2tEXY+t^2EY^2 EX2−2tEXY+t2EY2最多有一个重根;
则,由关于 t t t的一元二次函数的根的判定,知, Δ = 4 ( E X Y ) 2 − 4 E X 2 E Y 2 ≤ 0 \Delta=4(EXY)^2-4EX^2EY^2 \le 0 Δ=4(EXY)2−4EX2EY2≤0,即证得。
最简单,但是我最不会的地方,就是性质2的运用。其中在做题的时候,会碰到很多两个变量之和的期望,但是就是想不起来用这个公式,比方说在求条件期望的时候,就会使用到这条性质,eg, E ( θ + ϵ 0 ∣ f 0 ) = E ( θ ∣ f 0 ) + E ( ϵ ∣ f 0 ) E(\theta+\epsilon_0|f_0)=E(\theta|f_0)+E(\epsilon|f_0) E(θ+ϵ0∣f0)=E(θ∣f0)+E(ϵ∣f0),一起弄着不好求,拆开(一般我就想不到!),分别由各自的分布就可以求到,就很简单!
(但是现在再问问自己,真的想不到吗?你是前一步想不到啊…
条件期望
条件期望与一般期望的定义类似,只不过条件期望的取值与条件相关。如果说条件是一个随机变量的话,那么条件期望就是条件变量的一个函数。
同时,条件期望也有着跟一般期望相似的性质,这里有新提及到一个公式,全期望公式,即 E ( X ) = E ( E ( X ∣ Y ) ) . E(X)=E(E(X|Y)). E(X)=E(E(X∣Y)).
随机变量的方差(Variance)
它反映的是随机变量在其均值附近的波动程度,方差越大,随机变量在其均值附近的波动就越大,偏离中心(均值)的程度就越高。
定义
判断是否存在与期望的类似,不过将期望中的变量值变成了变量减去其期望的平方,离散连续的都变换一下。
设 X X X为一随机变量,若 E ( X − E X ) 2 E(X-EX)^2 E(X−EX)2存在,则称它为随机变量 X X X的方差,记为 D X DX DX.即 D X = E ( X − E X ) 2 DX=E(X-EX)^2 DX=E(X−EX)2.
方差的算数平方根 D X \sqrt{DX} DX称为 X X X的标准差.
若 X X X离散,则 D X = E ( X − E X ) 2 = ∑ i = 1 ∞ ( x i − E X ) 2 p i . DX=E(X-EX)^2=\sum_{i=1}^{\infty}(x_i-EX)^2p_i. DX=E(X−EX)2=i=1∑∞(xi−EX)2pi.
若 X X X连续,则 D X = E ( X − E X ) 2 = ∫ − ∞ + ∞ ( x − E X ) 2 f ( x ) d x . DX=E(X-EX)^2=\int_{-\infty}^{+\infty}(x-EX)^2f(x) \rm dx. DX=E(X−EX)2=∫−∞+∞(x−EX)2f(x)dx.
同时,易推知, D X = E X 2 − ( E X ) 2 . DX=EX^2-(EX)^2. DX=EX2−(EX)2.
性质
- 对任意随机变量 X X X有 D X ≥ 0 DX \ge 0 DX≥0,且 D X = 0 DX=0 DX=0的充分必要条件为 P ( X = C ) = 1 ( C = 1 为 任 意 常 数 ) ; P(X=C)=1(C=1为任意常数); P(X=C)=1(C=1为任意常数);
- 对任意常数 C C C,有 D ( C X ) = C 2 D X ; D(CX)=C^2DX; D(CX)=C2DX;
- 若 X 1 , X 2 , ⋯ , X n ( n ≥ 2 ) X_1,X_2,\cdots,X_n(n \ge 2) X1,X2,⋯,Xn(n≥2)相互独立,则 D ( X 1 + X 2 + ⋯ + X n ) = D X 1 + D X 2 + ⋯ + D X n ; D(X_1+X_2+\cdots +X_n)=DX_1+DX_2+\cdots+DX_n; D(X1+X2+⋯+Xn)=DX1+DX2+⋯+DXn;
- 对任意实数 C C C, D X = E ( X − E X ) 2 ≤ E ( X − C ) 2 ; DX=E(X-EX)^2 \le E(X-C)^2; DX=E(X−EX)2≤E(X−C)2;
- 设 X , Y X,Y X,Y相互独立,则 D ( X Y ) = D X D Y + E ( Y ) 2 D X + ( E X ) 2 D Y D(XY)=DXDY+E(Y)^2DX+(EX)^2DY D(XY)=DXDY+E(Y)2DX+(EX)2DY
证明简要补充:
- Chebyshev不等式。
- 方差定义。
- 期望中相互独立, E X 1 X 2 = E X 1 E X 2 EX_1X_2=EX_1EX_2 EX1X2=EX1EX2的推广。
- 将 X − C = ( X − E X ) + ( E X − C ) X-C=(X-EX)+(EX-C) X−C=(X−EX)+(EX−C),加减同一项。
- 使用方差定义,加上独立时期望的性质 E X 1 X 2 = E X 1 E X 2 EX_1X_2=EX_1EX_2 EX1X2=EX1EX2。
常见分布的期望与方差
分布 | 期望 | 方差 |
---|---|---|
( 0 − 1 ) (0-1) (0−1) | p p p | p ( 1 − p ) p(1-p) p(1−p) |
B ( n , p ) B(n,p) B(n,p) | n p np np | n p ( 1 − p ) np(1-p) np(1−p) |
P ( λ ) P(\lambda) P(λ) | λ \lambda λ | λ \lambda λ |
G ( p ) G(p) G(p) | 1 p \cfrac{1}{p} p1 | q p 2 \cfrac{q}{p^2} p2q |
H ( n , M , N ) H(n,M,N) H(n,M,N) | n M N \cfrac{nM}{N} NnM | n M ( N − M ) ( N − n ) N 2 ( N − 1 ) \cfrac{nM(N-M)(N-n)}{N^2(N-1)} N2(N−1)nM(N−M)(N−n) |
U [ a , b ] U[a,b] U[a,b] | a + b 2 \cfrac{a+b}{2} 2a+b | ( b − a ) 2 12 \cfrac{(b-a)^2}{12} 12(b−a)2 |
E ( λ ) E(\lambda) E(λ) | 1 λ \cfrac{1}{\lambda} λ1 | 1 λ 2 \cfrac{1}{\lambda^2} λ21 |
N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) | μ \mu μ | σ 2 \sigma^2 σ2 |
注:
主要针对超几何分布,求超几何分布的数学期望和方差,需要用到一些期望和方差的性质。可以对抽取的n个样本一个个分析,再求和,就可以分别求出随机变量的期望与方差。
这里需要注意的是,由于从抽取的n个样本中每个单位被抽取的概率都是相等的,即便是不放回抽样,所以最后求期望就可以直接分开求和;在求方差的时候,因为是把n次抽取分为抽取一个,不放回…依次抽取到n个为止,想强调的是不重复抽样,所以上一个单位被抽取是会影响到下一个单位的方差的,就需要使用到协方差的知识,但是也不难嘿嘿。
随机变量的矩
概率论中矩的概念是由力学中矩的概念来引入的。
它是随机变量最简单的数字特征。它的不同计算方式的组合,可以有期望(一阶原点矩)、方差(二阶中心距)、协方差(X与Y的相关中心距)、偏度(三阶中心距,消量纲)和峰度(四阶中心距,消量纲)
原点矩
分为k阶中心距,和k阶绝对中心距。
设 X X X为随机变量,若 E ∣ X ∣ k < ∞ , E|X|^k<\infty, E∣X∣k<∞,记 v k = E X k , α k = E ∣ X ∣ k , v_k=EX^k,\alpha_k=E|X|^k, vk=EXk,αk=E∣X∣k,则称 v k v_k vk为 X X X的 k k k阶原点矩,并称 α k \alpha_k αk为 X X X的 k k k阶原点绝对矩。
中心矩
也分为k阶原点矩,和k阶绝对原点矩。
又若 E X EX EX存在,且 E ( ∣ X − E X ∣ k ) < ∞ E(|X-EX|^k)<\infty E(∣X−EX∣k)<∞,记 μ k = E [ X − E X ] k \mu_k=E[X-EX]^k μk=E[X−EX]k,则称 μ k \mu_k μk为 X X X的 k k k阶中心距,并称 β k = E ∣ X − E X ∣ k \beta_k=E|X-EX|^k βk=E∣X−EX∣k为 X X X的 k k k阶中心绝对矩。
随机变量的协方差(Covariance)和相关系数(Cofficient of Correlation)
协方差
协方差是什么?
为什么要引进协方差?协方差的统计意义。
协方差的性质?
在前面求期望的时候,我们有一条性质:当两个随机变量相互独立的时候,它们乘积的期望等于期望的乘积,这个性质很好,很方便。
因为变量之间不可能总是相互独立的,我们也需要考虑到那些不独立的情况,即考虑多个变量之间的相关关系,于是就有了协方差的概念。
协方差研究的就是随机变量之间的相关关系,一般,变量之间的协方差越大,它们的相关性就越强,反之,则越弱。它代表的是两个变量协同变化的方向和程度,也是两个随机变量之间的相似程度。
同时,协方差也是由中心距和原点矩那些来引入的,它一般是研究两个变量之间的相关关系。使用的矩是两个变量的混合中心矩,即 c o v ( X , Y ) = E ( X − E X ) ( Y − E Y ) cov(X,Y)=E(X-EX)(Y-EY) cov(X,Y)=E(X−EX)(Y−EY).
此外,方差是协方差的特殊情况,它表明一个随机变量自身的波动情况。
性质:
- 对称性, c o v ( X , Y ) = c o v ( Y , X ) ; cov(X,Y)=cov(Y,X); cov(X,Y)=cov(Y,X);
- c o v ( X 1 + X 2 , Y ) = c o v ( X 1 , Y ) + c o v ( X 2 , Y ) ; cov(X_1+X_2,Y)=cov(X_1,Y)+cov(X_2,Y); cov(X1+X2,Y)=cov(X1,Y)+cov(X2,Y);
- c o v ( a X , b Y ) = a b c o v ( X , Y ) cov(aX,bY)=abcov(X,Y) cov(aX,bY)=abcov(X,Y),其中 a , b a,b a,b为任意常数。
都可直接由定义的公式直接推得。
相关系数
为什么引进相关系数?
什么是相关系数?
相关系数有什么用?
相关系数有什么性质?
- 刚刚提及到的协方差,它可以反映变量之间的联系,但是往往不同变量之间的联系差异太大,无法进行相对比较。对于同样两个变量,可能会使用不同的量纲来度量,得到的协方差的数值不一样。为了消除量纲对X和Y关系的影响,我们将协方差除以一个跟它同样量纲的数,在对不同变量之间的相关关系进行对比,这里就引入了相关系数的概念。
- 相关系数的定义: ρ X Y = c o v ( X , Y ) D X D Y \rho_{XY}=\cfrac{cov(X,Y)}{\sqrt{DX}\sqrt{DY}} ρXY=DXDYcov(X,Y)
- 相关系数类跟协方差一样,是用来反映不同变量之间的线性相关程度的,只是它消除了量纲的影响,讲数字特征的取值控制在了 [ 0 , 1 ] [0,1] [0,1]之间。
- 相关系数的性质:(1)在-1 到 1 之间取值,即 ∣ ρ ∣ ≤ 1 | \rho| \le1 ∣ρ∣≤1。(2) 当相关系数的绝对值等于1的时候 p ( Y = a X + b ) = 1 p(Y=aX+b)=1 p(Y=aX+b)=1,说明两个变量之间呈线性相关,其中 a , b a,b a,b为常数。
性质证明补充:
(1)对每个变量分别中心化,各个变量分别减去他们的数学期望( X 1 = X − E X , Y 1 = Y − E Y X_1=X-EX,Y_1=Y-EY X1=X−EX,Y1=Y−EY),从而构成新的变量。再使用Cauchy-Schwarz不等式( E ( X 1 Y 1 ) ≤ E X 1 2 E Y 1 2 E(X_1Y_1) \le \sqrt{EX_1^2EY_1^2} E(X1Y1)≤EX12EY12),即证得。
(2)由上式, E ( X 1 Y 1 ) 2 − E X 1 2 Y 1 2 = 0 E(X_1Y_1)^2-EX_1^2Y_1^2=0 E(X1Y1)2−EX12Y12=0,
即 g ( t ) = E ( t X 1 − Y 1 ) 2 = 0 g(t)=E(tX_1-Y_1)^2=0 g(t)=E(tX1−Y1)2=0有重根,记为 t 0 t_0 t0,有 E ( t 0 X 1 − Y 1 ) 2 = 0 E(t_0X_1-Y_1)^2=0 E(t0X1−Y1)2=0
再利用 E ( t 0 X 1 − Y 1 ) = E [ 1 ⋅ ( t 0 X 1 − Y 1 ) ] , E(t_0X_1-Y_1)=E[1\cdot(t_0X_1-Y_1)], E(t0X1−Y1)=E[1⋅(t0X1−Y1)],Cauchy-Schwarz不等式和 E ( t 0 X 1 − Y 1 ) 2 = 0 , E(t_0X_1-Y_1)^2=0, E(t0X1−Y1)2=0,就有 E ( t 0 X 1 − Y 1 ) = 0 , E(t_0X_1-Y_1)=0, E(t0X1−Y1)=0,
所以 D ( t 0 X 1 − Y 1 ) = E ( t 0 X 1 − Y 1 ) 2 − [ E ( t 0 X 1 − Y 1 ) ] 2 = 0. D(t_0X_1-Y_1)=E(t_0X_1-Y_1)^2-[E(t_0X_1-Y_1)]^2=0. D(t0X1−Y1)=E(t0X1−Y1)2−[E(t0X1−Y1)]2=0.
独立性(Independent)
需要提及线性相关与独立性之间的关系。
一般,变量之间相互独立,那么这两个向量之间不线性相关,反之,如果变量之间的相关系数不为0,并不能够推出这两个随机变量之间相互独立,它只能够说明变量之间不存在线性相关关系,不能够说明他们之间并不存在非线性关系。例如,正弦函数的平方与余弦函数的平方,他们之间的的相关系数为0,没有线性关系但是具有函数关系。
注:正态随机变量的相关系数等于0表明变量之间是相互独立的。
变异系数
变异系数是绝对值形式的平均指标与相对形式的变异指标相互对比的结果。一般的计算公式为随机变量的标准差除以它的期望。
V σ = σ μ V_\sigma = \cfrac{\sigma}{\mu} Vσ=μσ
优点:不同于极差、平均差、标准差等反映随机变量等变异指标,变异系数消除了量纲的影响,非常适宜不同计量单位或不同平均水平的总体之间变异状况的对比。
偏度和峰度(Skewness Kurtosis)
偏度和峰度表明分布的图形方面的特征。
偏度表示随机变量分布的偏斜的方向和程度。(自我理解)它主要与一般正态分布的中心相比。也是代表离群数据离群的一个度量,主要关注的是正向离群点比较多(向右拖尾),还是负向离群点比较多(向左拖尾)。
α = E ( X − μ ) 3 σ 3 \alpha=\cfrac{E(X-\mu)^3}{\sigma^3} α=σ3E(X−μ)3
峰度表示,随机变量分布的不对称的方向和程度。它主要是和正态分布相对比。(自我理解)也是离群程度的一个度量,与偏度不同,它主要关注的是两边离群度的一个度量。从概率密度函数的图像上来看,它是比正态分布凸(数据比较集中在均值附近)还是凹(数据分布比较散,往两边分布。)。
β = E ( X − μ ) 4 σ 4 \beta = \cfrac{E(X-\mu)^4}{\sigma^4} β=σ4E(X−μ)4
数字特征取值中正负号代表的意义:
α = { ≥ 0 , 正 偏 = 0 , 对 称 ≤ 0 , 负 偏 \alpha=\left\{ \begin{aligned} \ge0, \qquad 正偏 \\ =0, \qquad 对称 \\ \le0, \qquad 负偏 \end{aligned} \right. α=⎩⎪⎨⎪⎧≥0,正偏=0,对称≤0,负偏
偏度正负分别代表分布式正偏还是负偏,0代表的是对称;
β = { ≥ 0 , 高 峰 度 = 0 , 正 态 峰 度 ≤ 0 , 低 峰 度 \beta=\left\{ \begin{aligned} \ge0,\qquad & 高峰度 \\ =0, \qquad & 正态峰度 \\ \le0,\qquad & 低峰度 \end{aligned} \right. β=⎩⎪⎨⎪⎧≥0,=0,≤0,高峰度正态峰度低峰度
峰度正负号分别代表分布对比正态分布是高峰度还是低峰度,0代表的是正态峰度。
后言
我真的拖了好久,钻进了地缝,又从地缝里面钻出来。
从协方差到后面的那些特征,我看了很多的文章,很多人都写出来很好了,写的很通俗易懂。看到别人写的很好的时候,一直脑子很疼,我得承认现在的我是达不到那种程度的,为此,我多次不想再继续写下去了,觉得没有什么意义,为什么要做一个无用的搬运工?但是到最后想明白了,那别人能够将一件事情通俗易懂地讲述出来,给我们看是好事,我一下子想不明白,也是好事,因为这相当于是给了我一次认识到自己的不足、学习、输出,进而掌握一项原本我觉得简单但并非简单的知识的机会吗?我就算是不会,很多地方都是参考的别人的,不是原创的,也没有关系,至少在这个自己想着去写作的过程中学习到了新知识,这些就已经足够了。
不惧自己的不足,继续写下去。
参考
- covariance-Wekipedia
- 如何通俗易懂地解释「协方差」与「相关系数」的概念? – GRAYLAMB的回答 – 知乎
- 协方差详解角度:历史、数学、物理意义
- 对于概率论数字特征的理解
- [交流讨论] 李德荃关于偏度与峰度的讲解
今天的文章概率论与数理统计(第四章-数字特征分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/29838.html