统计学:HHG相关性算法

统计学:HHG相关性算法HHG Heller Heller Gorfine 算法是一种强大的相关性检测方法 能够处理线性 非线性 单调 非单调等各种相关性类型

统计相关性

算法

统计学一个最基本的关注点就是两个随机变量之间有没有相关性,或者说是否完全独立。所有学过统计学的人都知道最基本的Pearson相关系数。一般的统计学教授还知道统计书里的Spearman和Kendall这两种非参数方法。这三大方法的文章和讨论比比皆是,网上随便都能搜到。
注:非参数方法是指不对变量的总体概率分布做任何假设的统计方法

除了常见的三大方法外,还有许多不太知名的方法其实更加强大。想要全面的了解,笔者推荐这篇论文:“A comparative study of statistical methods used to identify dependencies between gene expression signals” (2014) 。这篇还不算太老的文章全面地总结了所有当时已知的相关性算法,并且用系统化的方法benchmark了它们的性能,是快速了解这一领域全貌的绝佳地图。本文中大部分图片都来自此篇paper,侵删。

相关性的几种分类方式

线性 v.s. 非线性

一般提到相关性,我们脑海中往往想的是线性相关性。如下图所示:
线性相关
这幅图虽然不太明显,但大致还是能看出来x和y两个变量之间存在正线性相关关系,不难画出一条过0点斜率大概为1的直线来近似这种关系。Pearson相关性计算的就是线性相关程度,如果相关度高就可以进一步用Linear Regression来建模拟合线性模型了。

既然有线性相关,自然就有非线性相关。如下图所示:
非线性相关
图中的点明显地指出了一个形如 y = e x − 1 y=e^x-1 y=ex1 的指数函数,你可以这里看看wolfram alpha画出来的此函数图形, 是不是拟合的很好?
像这种非线性相关关系,用Pearson方法就很吃力了。但还可以用spearman或者kendall来处理,因为这二者不使用变量的具体数值来计算,而是用值的相对大小(序数, rank)计算的。序数和比赛里的第一名,第二名一样,就是对一些数字(选手成绩)排序后的名次。比如对一个变量X={2,5,7,3}, 从小到大排序后的序数就是Rank(X)={1,3,4,2}。只要是一个值比另一个大,这两种算法就不在乎具体是线性还是非线性相关,都能正确地找出相关性。

单调(monotonic) v.s. 非单调(non-monotonic)

单调函数是指随着x的逐渐增大,y也会一直增大(或减小)的函数。反应在图上就是条一直上升(或下降)的线,不会中间突然改变上升或下降的趋势。上面的指数函数图就是一个单调函数。

违反单调函数定义的函数就是非单调函数了,图形上显示为一条随着x的增大, y时而上升而又时而下降的函数,如下图所示:
非单调非线性相关
我们可以用一个形如 y = x 2 y=x^2 y=x2 的多项式来拟合,看看wolfram画的图。
此图显示的是一个非线性,非单调的相关关系。这时就连spearman和kendall方法都失效了,因为这图上左半部分和右半部分的排序在计算过程

今天的文章 统计学:HHG相关性算法分享到此就结束了,感谢您的阅读。
编程小号
上一篇 2024-12-06 09:06
下一篇 2024-12-06 08:46

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/79481.html