特征选择iv值_表格筛选三个包含

特征选择iv值_表格筛选三个包含一.定义IV(InfromationValue),信息价值,用来表示特征对目标预测的贡献程度,即特征的预测能力,一般来说,IV值越高,该特征的预测能力越强,信息贡献程度越高

一.定义

IV(Infromation Value),信息价值,用来表示特征对目标预测的贡献程度,即特征的预测能力,一般来说,IV值越高,该特征的预测能力越强,信息贡献程度越高。

二.限定条件

IV值的计算有一定的限定条件:

(1)面向的任务必须是有监督的任务;

(2)预测目标必须是二分类的。

三.IV取值区间及常用评价基准

IV值的取值区间为:[0,正无穷)。

IV值取值含义:

(1)IV<0.02:无用特征

(2)0.02<IV<0.1:弱价值特征

(3)0.1<IV<0.3:中价值特征

(4)0.3<IV<0.5:强价值特征

(5)IV>0.5:价值过高,不真实

四.计算方式

由于IV值的计算是以WOE值为基础的,所以计算IV值之前,首先得计算WOE值。

(1)WOE

  • WOE定义:Weight Of Evidence,证据权重,表示描述一个可预测的变量与二分类变量之间的关系。
  • 使用:在使用WOE之前,需要对变量进行分箱处理,分箱的操作包括:对于连续型变量可以采用:等距分箱,等频分箱,自定义间隔;对于离散型变量,如分箱太多,可以进行分箱合并。
  • 等距分箱:即按照区间距离来划分,不能保证每个分箱中含有相同的变量数;等频分箱:根据频率划分,可以保证每个分箱中含有相同的变量数。
  • 计算公式:

特征选择iv值_表格筛选三个包含

  • 公式描述:可以看出WOE是基于每个分箱中的变量进行计算的,对于每个分箱,分别计算bin_good(好人数),bin_bad(坏人数),分别除以全量数据中的好人总数(total_goods)和坏人总数(total_bads),得到每个分箱内的边际好人占比(margin_good_rate)和边际坏人占比(margin_bad_rate)。
  • 故WOE计算方式也可表示为:

特征选择iv值_表格筛选三个包含

  • 公式理解:WOE表示的是当前分箱当中,“坏人数量占所有样本中坏人数量的比例”,与“好人数量占所有样本中坏好人数量的比例”。如果差异越大,那么该分箱响应坏人的可能性就越大;当差异越小时,该分箱响应的坏人的可能性就越小。

(2)IV

  • 计算方式:

特征选择iv值_表格筛选三个包含

  • 公式理解:IV值的计算是对WOE值的加权和,是用来衡量WOE表示的变量对二分类变量之间关系的强度。

五.一些注意的点

  • 贝叶斯角度理解WOE:引入后验经验的变量后,WOE值是修正先验odds与后验odds之间距离的增量,可理解为对先验的一个增益,这也是WOE称作“证据权重”的一个原因。所以IV值对OWE的加权也是更加计算出来了该特征下对目标变量的一个增益情况。
  • WOE与Odds Ratio(OR):OR的值与逻辑回归具有关联性,即当逻辑回归中的变量变化值为1时,odds的变化是e^{a},a是当前特征变量下的权重。
  • WOE的变化趋势是与odds的变化趋势是一致的,WOE单调递增时,odds也是单调递增的;WOE曲线越抖,好人与坏人的区分越明显。

 

今天的文章特征选择iv值_表格筛选三个包含分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:http://bianchenghao.cn/70709.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注