下边简单谈一下自己的理解:
先说一下ks
ks值和ks曲线:
将所有样本根据分数值从低到高排序(即坏账率从高到低)均分成10组,分别计算这10组的实际好样本数、坏样本数、累积好样本数、累积坏样本数、累积好样本数占比、累积坏样本数占比,差值。其中实际好坏样本数分别为该组内的好坏样本数,累积好坏样本数为该组累积的好坏样本数,累积好坏样本数占比为累积好坏样本数占总好坏样本数的比值,差值为累积坏样本数占比减去累计好样本数占比。KS指标为差值绝对值的最大值。计算示例如下:
横坐标为每一组,作图:
我们将坏客户作为正样本,计算累积正样本率(cumsum_bad)和累积负样本率(cumsum_good),累积正样本率和累积负样本率差的最大值就是KS值。KS曲线见下图。
由于按照正样本(bad)预测概率降序排列,所以前面的组别,bad的占比更大,累计正样本率更高,但为正(bad)的概率是递减的;相反排在前面的样本为负(good)的概率更小,但为负(good)的概率递增。所以图像如上所示。
roc曲线和auc值
先看一下混淆矩阵
今天的文章 【模型指标】ks,gini值,auc的关系分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/80193.html