1,输入变量可以是数值型或分类型,输出变量也可以是数值型或分类型。如果输出为分类型,则称为分类预测模型;反之,则为回归预测模型。
2,一般拿到的数据为一个矩阵,一行对应一个观测,一列对应一个变量。一般自变量(解释变量)会有多个(x1, x2, …, xp),因变量(被解释变量)只有一个(y)。在预测过程中可以看成是发生在p+1为空间中的事件。
3,建模过程其实就在找p个x与一个y之间的关系,并将这种关系用一个模型表示出来(线性或非线性)。模型确定后,对于给定的新的p个x值,就可以预测出 y ^ \hat{y} y^。
4,对于分类预测模型,实际上是找到p维的超平面,使得位于超平面同侧的点更接近;而对于回归预测模型,也要找到一个p维的超平面,使得预测得到的值位于这个超平面上。
5,对分类预测模型的评价
ROC曲线是很好的评价方式,参考ROC曲线。
TPR(真阳性率) = TP/(TP+FN),也叫查全率、敏感性;
FPR(假阳性率) = FP/(FP+TN) = 1 – TN/(FP+TN),其中TN/(FP+TN)叫做真阴性率,又叫特异性;
查准率 = TP/(TP+FP);
由于查准率(Precision)和查全率(Recall)无法同时大,可以基于查准率和查全率的调和平均数定义F1值,F1越大预测结果越准确。
1/F1 = 1/2 * (1/Precision + 1/Recall),即 F 1 = 2 ∗ P ∗ R / ( P + R ) F1 = 2*P*R/(P+R) F1=2∗P∗R/(P+R);
准确性(Accuracy) = (TP+TN)/(TP+TN+FP+FN)
6,对回归预测模型的评价
可以计算均方误差去评价回归模型:
其实在进行回归建模时,就是要找到一系列参数使得均方平方和最小。
7,统计建模、机器学习与深度学习
7.1 统计建模数据量一般小,机器学习和深度学习大;
7.2 统计建模对模型的关注度更大,先假定数据的概率分布,再选择模型,接着对参数进行估计,然后对数据进行解释;而机器学习更关注从数据到数据的预测准确性,选定好算法后,不断优化参数,使模型达到理想结果;深度学习更像是一个黑匣子,喂给它数据,它能自己学习出最佳的参数。
今天的文章数据预测建模概述_大数据预测模型[通俗易懂]分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/59204.html