目录
0引言
偏态分布是A. Azzalini1在1985年提出的,本文主要介绍正态分布到偏正态分布的定义,主要展示偏正态分布常见数字特征均值方差的推导,以及使用R语言对不同偏态的概率密度函数进行展示。
1、偏态分布的定义
1.1正态分布
正态分布2,又名高斯分布,最早由棣莫弗在二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
随机变量 X X X服从 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)正态分布,我们分别记 ϕ ( ∗ ) \phi(*) ϕ(∗)和 Φ ( ∗ ) \Phi(*) Φ(∗)为标准正态分布的概率密度函数与累计分布函数。
定义为:
ϕ ( x ) = 1 2 π e − x 2 2 \phi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} ϕ(x)=2π1e−2x2
Φ ( x ) = ∫ − ∞ x ϕ ( t ) d t \Phi(x) = \int_{-\infin}^{x}{\phi(t)dt} Φ(x)=∫−∞xϕ(t)dt
随机变量 X X X的概率密度函数和累计分布分别为为:
f X ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f_{X}(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} fX(x)=2πσ1e−2σ2(x−μ)2
F X ( x ) = ∫ − ∞ x f ( t ) d t F_{X}(x) = \int_{-\infin}^{x}{f(t)dt} FX(x)=∫−∞xf(t)dt
1.2偏态分布
A. Azzalini1在1985年首次提出标准偏态分布 S N ( 0 , 1 , λ ) SN(0,1,\lambda) SN(0,1,λ),引入了偏度参数 λ \lambda λ,其概率密度函数是:
f ( x ) = 2 ϕ ( x ) Φ ( λ x ) , f(x) = 2\phi(x)\Phi(\lambda x), f(x)=2ϕ(x)Φ(λx),
Y Y Y服从 S N ( μ , σ , λ ) SN(\mu, \sigma,\lambda) SN(μ,σ,λ)的偏态分布,类似的概率密度函数有如下定义:
f Y ( y ) = 2 σ ϕ ( y − μ σ ) Φ ( λ y − μ σ ) . f_Y(y) = \frac{2}{\sigma}\phi(\frac{y-\mu}{\sigma})\Phi(\lambda \frac{y-\mu}{\sigma}). fY(y)=σ2ϕ(σy−μ)Φ(λσy−μ).
可以看出当 λ \lambda λ为0时,该分布退化为正态分布。下面我们来随机变量 Y Y Y的均值和方差。
2、偏态分布的数字特征
2.1均值
在1.2节我们定义了一般的偏正态分布,这节我们推导偏正态分布的均值。
E ( Y ) = ∫ − ∞ + ∞ y f ( y ) d y = ∫ − ∞ + ∞ y 2 σ ϕ ( y − μ σ ) Φ ( λ y − μ σ ) d y ( 标 准 化 换 元 ( t = y − μ σ ) ) = ∫ − ∞ + ∞ 2 ( σ t + μ ) ϕ ( t ) Φ ( λ t ) d t = μ + σ ∫ − ∞ + ∞ 2 t ϕ ( t ) Φ ( λ t ) d t = μ + σ ∫ − ∞ + ∞ 2 t ϕ ( t ) d t ∫ − ∞ λ t ϕ ( k ) d k ( 变 换 积 分 限 ) = μ + σ ∫ − ∞ + ∞ ϕ ( k ) d k ∫ k λ + ∞ 2 t ϕ ( t ) d t = μ + σ ∫ − ∞ + ∞ ϕ ( k ) d k ∫ k λ + ∞ 2 2 π d − e − t 2 2 = μ + 2 π σ ∫ − ∞ + ∞ e − k 2 2 λ 2 ϕ ( k ) d k = μ + 2 π λ 1 + λ 2 σ \begin{aligned} E(Y) &\left.= \int_{-\infin}^{+\infin}yf(y)dy \right. \\ &\left. = \int_{-\infin}^{+\infin}y \frac{2}{\sigma}\phi(\frac{y-\mu}{\sigma})\Phi(\lambda \frac{y-\mu}{\sigma})dy (标准化换元(t=\frac{y-\mu}{\sigma})) \right. \\ &\left.=\int_{-\infin}^{+\infin}2(\sigma t + \mu)\phi(t)\Phi(\lambda t)dt \right.\\ &\left.=\mu +\sigma\int_{-\infin}^{+\infin}2t\phi(t)\Phi(\lambda t)dt \right.\\ &\left.=\mu +\sigma\int_{-\infin}^{+\infin}2t\phi(t)dt\int_{-\infin}^{\lambda t}{\phi(k)} dk (变换积分限) \right. \\ &\left.=\mu +\sigma\int_{-\infin}^{+\infin}\phi(k)dk\int_{\frac{k}{\lambda }}^{+\infin}2t{\phi(t)} dt \right. \\ &\left.=\mu +\sigma\int_{-\infin}^{+\infin}\phi(k)dk\int_{\frac{k}{\lambda }}^{+\infin}\frac{2}{\sqrt{2\pi}} d-e^{-\frac{t^2}{2}} \right. \\ &\left.=\mu +\sqrt{\frac{2}{
{\pi}}}\sigma\int_{-\infin}^{+\infin}e^{-\frac{k^2}{2\lambda^2}}\phi(k)dk \right. \\ &\left.=\mu +\sqrt{\frac{2}{
{\pi}}} \frac{\lambda}{\sqrt{1+\lambda^2}} \sigma \right. \\ \end{aligned} E(Y)=∫−∞+∞yf(y)dy=∫−∞+∞yσ2ϕ(σy−μ)Φ(λσy−μ)dy(标准化换元(t=σy−μ))=∫−∞+∞2(σt+μ)ϕ(t)Φ(λt)dt=μ+σ∫−∞+∞2tϕ(t)Φ(λt)dt=μ+σ∫−∞+∞2tϕ(t)dt∫−∞λtϕ(k)dk(变换积分限)=μ+σ∫−∞+∞ϕ(k)dk∫λk+∞2tϕ(t)dt=μ+σ∫−∞+∞ϕ(k)dk∫λk+∞2π2d−e−2t2=μ+π2σ∫−∞+∞e−2λ2k2ϕ(k)dk=μ+π21+λ2λσ
令: μ 0 ( λ ) = 2 π λ 1 + λ 2 \mu_0(\lambda) = \sqrt{\frac{2}{
{\pi}}}\frac{\lambda}{\sqrt{1+\lambda^2}} μ0(λ)=π21+λ2λ
有: E ( Y ) = μ + μ 0 ( λ ) σ E(Y) = \mu+\mu_0(\lambda)\sigma E(Y)=μ+μ0(λ)σ
2.2方差
按着正常步骤求方差先求二阶距离:
E ( Y 2 ) = ∫ − ∞ + ∞ y 2 f ( y ) d y = ∫ − ∞ + ∞ y 2 2 σ ϕ ( y − μ σ ) Φ ( λ y − μ σ ) d y ( 标 准 化 换 元 ( t = y − μ σ ) ) = ∫ − ∞ + ∞ 2 ( σ t + μ ) 2 ϕ ( t ) Φ ( λ t ) d t = ∫ − ∞ + ∞ 2 ( μ 2 + σ 2 t 2 + 2 μ σ t ) ϕ ( t ) Φ ( λ t ) d t = μ 2 + 2 μ σ μ 0 + σ 2 ∫ − ∞ + ∞ 2 t 2 ϕ ( t ) Φ ( λ t ) d t = μ 2 + 2 μ σ μ 0 + σ 2 \begin{aligned} E(Y^2) &\left.= \int_{-\infin}^{+\infin}y^2f(y)dy \right. \\ &\left. = \int_{-\infin}^{+\infin}y^2 \frac{2}{\sigma}\phi(\frac{y-\mu}{\sigma})\Phi(\lambda \frac{y-\mu}{\sigma})dy (标准化换元(t=\frac{y-\mu}{\sigma})) \right. \\ &\left.=\int_{-\infin}^{+\infin}2(\sigma t + \mu)^2\phi(t)\Phi(\lambda t)dt \right.\\ &\left.=\int_{-\infin}^{+\infin}2(\mu^2+\sigma^2 t^2+2\mu\sigma t)\phi(t)\Phi(\lambda t)dt \right.\\ &\left.=\mu^2 + 2\mu \sigma \mu_0+\sigma^2\int_{-\infin}^{+\infin}2t^2\phi(t)\Phi(\lambda t)dt \right.\\ &\left.=\mu^2 + 2\mu \sigma \mu_0+\sigma^2 \right.\\ \end{aligned} E(Y2)=∫−∞+∞y2f(y)dy=∫−∞+∞y2σ2ϕ(σy−μ)Φ(λσy−μ)dy(标准化换元(t=σy−μ))=∫−∞+∞2(σt+μ)2ϕ(t)Φ(λt)dt=∫−∞+∞2(μ2+σ2t2+2μσt)ϕ(t)Φ(λt)dt=μ2+2μσμ0+σ2∫−∞+∞2t2ϕ(t)Φ(λt)dt=μ2+2μσμ0+σ2
方差为:
D ( Y ) = E ( Y 2 ) − E ( Y ) 2 = μ 2 + 2 μ σ μ 0 + σ 2 − ( μ + μ 0 σ ) 2 = ( 1 − μ 0 2 ) σ 2 \begin{aligned} D(Y) &\left.=E(Y^2)-{E(Y)}^2 \right. \\ &\left.=\mu^2 + 2\mu \sigma \mu_0+\sigma^2 – {(\mu+\mu_0\sigma)}^2 \right. \\ &\left.=(1-\mu_0^2)\sigma^2 \right. \\ \end{aligned} D(Y)=E(Y2)−E(Y)2=μ2+2μσμ0+σ2−(μ+μ0σ)2=(1−μ02)σ2
令: σ 0 2 ( λ ) = 1 − μ 0 2 = 1 − 2 π λ 2 1 + λ 2 \sigma_0^2(\lambda) = 1 – \mu_0^2=1 – {\frac{2}{
{\pi}}}\frac{\lambda^2}{
{1+\lambda^2}} σ02(λ)=1−μ02=1−π21+λ2λ2
有: D ( Y ) = σ 0 2 ( λ ) σ 2 D(Y) = \sigma_0^2(\lambda)\sigma^2 D(Y)=σ02(λ)σ2
注:
- 在推导中会把 μ 0 ( λ ) \mu_0(\lambda) μ0(λ)记为 μ 0 . \mu_0. μ0.
- 在推导中用到 K = ∫ − ∞ + ∞ 2 t 2 ϕ ( t ) Φ ( λ t ) d t K = \int_{-\infin}^{+\infin}2t^2\phi(t)\Phi(\lambda t)dt K=∫−∞+∞2t2ϕ(t)Φ(λt)dt = 1,最后我们补齐证明。
K = ∫ − ∞ + ∞ 2 t 2 ϕ ( t ) Φ ( λ t ) d t ( 改 变 积 分 限 + 分 部 积 分 ) = ∫ − ∞ + ∞ 2 ϕ ( t ) Φ ( λ t ) d t ( 概 率 密 度 函 数 具 有 规 范 性 ) = 1 \begin{aligned} K &\left.=\int_{-\infin}^{+\infin}2t^2\phi(t)\Phi(\lambda t) dt (改变积分限+分部积分) \right. \\ \\ &\left.=\int_{-\infin}^{+\infin}2\phi(t)\Phi(\lambda t)dt(概率密度函数具有规范性) \right. \\ \\ &\left.=1 \right. \\ \end{aligned} K=∫−∞+∞2t2ϕ(t)Φ(λt)dt(改变积分限+分部积分)=∫−∞+∞2ϕ(t)Φ(λt)dt(概率密度函数具有规范性)=1
3、不同偏态的偏态分布——R语言
本文代码主要用了闭包
以及ggplot2
包。下面贴出代码和图片就不具体注释代码思路了。
3.1 代码
library(ggplot2)
nnorm <- function(mu = 0, sigma = 1, lambda = 0){
function(x){
x <- (x - mu)/sigma
f <- 1/(sqrt(2*pi))*exp(-x^2/2)*pnorm(x*lambda)
return(f)
}
}
plot(nnorm(), -5, 5,ylim = c(0,0.37))
plot(nnorm(lambda = -5), -5, 5, add = T)
plot(nnorm(lambda = -3), -5, 5, add = T)
plot(nnorm(lambda = -1), -5, 5, add = T)
plot(nnorm(lambda = 5), -5, 5, add = T)
plot(nnorm(lambda = 1), -5, 5, add = T)
plot(nnorm(lambda = 3), -5, 5, add = T)
x <- seq(-5,5, 0.01)
n = length(x)
Lambda <- c(-3:3)
Data <- data.frame(
x = rep(x, 7),
y = c(nnorm(lambda = -3)(x),nnorm(lambda = -2)(x),nnorm(lambda = -1)(x),nnorm(lambda = -0)(x),
nnorm(lambda = 1)(x), nnorm(lambda = 2)(x), nnorm(lambda = 3)(x)),
z = rep(Lambda, each = n),
z1 = as.factor(rep(Lambda, each = n))
)
qplot(data = Data, x = x, y = y, col = z, geom = "line")
qplot(data = Data, x = x, y = y, col = z1, geom = "line")
3.2不同lambda的偏态分布图
参考文献
今天的文章数据偏态分布_变异系数用于偏态分布分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/82712.html