特征工程的主要步骤分6步:
1.特征理解,学习如何识别定量数据和定性数据
2.特征增强,清洗和填充缺失值,最大化数据集的价值
3.特征构建,构建新的特征,探索特征间的联系
4.特征选择,通过统计方法选择一部分特征,以减少数据噪声
5.特征转换,提取数据中的隐藏结构,用数学方法转换数据集,增强效果
6.特征学习,用简单的神经网络学习特征
一、特征理解
假设数据已经使用pandas进行读取,变量名为df
数据可以分为四个等级:
二、特征增强
一下均假设得到的数据集为df,x为df的自变量集合,y为df的因变量集合
1.删除无数据的行
在删除了之后需要比较一下各列均值的变化
2.填充缺失值
可以使用0或者均值进行填充
使用填充器填充
3.参数搜索
使用参数搜索自动寻找最佳模型,假设这里尝试寻找参数最好的KNN模型
4.机器学习流水线
使用流水线,可以将各个模块按照流水形式组装结合,对输入的数据进行处理
5.标准化和归一化
(1)z分数标准化,使得均值为0,标准差为1
(2)min-max标准化,使得所有值在0-1之间
(3)行归一化,使得每行的向量长度相同
三、特征构建
1.自定义填充器
(1)自定义分类填充器
(2)自定义分量填充器
2.编码分类变量
(1)定类等级的编码
(2)定序等级的编码
3.扩展数值特征
(1)多项式特征
4.针对文本的特征构建
(1)词袋法
(2)tf-idf向量化
四、特征选择
1.基于统计的特征选择
(1)皮尔逊相关系数
(2)假设检验
2.基于模型的特征选择
(1)基于树模型
根据阈值进行模型选择
(2)正则化
分为L1正则化和L2正则化
五、特征转换
1.主成分分析,用于对原数据进行降维
2.线性判别分析,用于对数据分类划分出决策边界
(未完)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/69252.html