特征工程怎么做（如何做特征工程）

编程日记 • 2025-03-24 12:33 • 阅读 14

特征工程的主要步骤分6步：
1.特征理解，学习如何识别定量数据和定性数据
2.特征增强，清洗和填充缺失值，最大化数据集的价值
3.特征构建，构建新的特征，探索特征间的联系
4.特征选择，通过统计方法选择一部分特征，以减少数据噪声
5.特征转换，提取数据中的隐藏结构，用数学方法转换数据集，增强效果
6.特征学习，用简单的神经网络学习特征

一、特征理解
假设数据已经使用pandas进行读取，变量名为df

数据可以分为四个等级：

等级属性描述性统计图表定类离散无序频率/占比，众数条形图，饼图定序有序类别比较频率，众数，中位数，百分位数条形图，饼图，茎叶图定距数字差别有意义频率，众数，中位数，均值，标准差条形图，饼图，茎叶图，箱线图，直方图定比连续均值，标准差直方图，箱线图

二、特征增强
一下均假设得到的数据集为df,x为df的自变量集合，y为df的因变量集合
1.删除无数据的行

在删除了之后需要比较一下各列均值的变化

2.填充缺失值
可以使用0或者均值进行填充

使用填充器填充

3.参数搜索
使用参数搜索自动寻找最佳模型，假设这里尝试寻找参数最好的KNN模型

4.机器学习流水线
使用流水线，可以将各个模块按照流水形式组装结合，对输入的数据进行处理

5.标准化和归一化
（1）z分数标准化，使得均值为0，标准差为1

（2）min-max标准化，使得所有值在0-1之间

（3）行归一化，使得每行的向量长度相同

三、特征构建
1.自定义填充器
（1）自定义分类填充器

（2）自定义分量填充器

2.编码分类变量
（1）定类等级的编码

（2）定序等级的编码

3.扩展数值特征
（1）多项式特征

4.针对文本的特征构建
（1）词袋法

（2）tf-idf向量化

四、特征选择
1.基于统计的特征选择
（1）皮尔逊相关系数

（2）假设检验

2.基于模型的特征选择
（1）基于树模型

根据阈值进行模型选择

（2）正则化
分为L1正则化和L2正则化

五、特征转换
1.主成分分析，用于对原数据进行降维

2.线性判别分析，用于对数据分类划分出决策边界

（未完）

特征工程怎么做（如何做特征工程）

相关推荐