特征工程怎么做(如何做特征工程)

特征工程怎么做(如何做特征工程)特征工程的主要步骤分 6 步 1 特征理解 学习如何识别定量数据和定性数据 2 特征增强 清洗和填充缺失值 最大化数据集的价值 3 特征构建 构建新的特征 探索特征间的联系 4 特征选择 通过统计方法选择一部分特征 以减少数据噪声 5 特征转换 提取数据中的隐藏结构 用数学方法转换数据集 增强效果 6 特征学习



特征工程的主要步骤分6步:
1.特征理解,学习如何识别定量数据和定性数据
2.特征增强,清洗和填充缺失值,最大化数据集的价值
3.特征构建,构建新的特征,探索特征间的联系
4.特征选择,通过统计方法选择一部分特征,以减少数据噪声
5.特征转换,提取数据中的隐藏结构,用数学方法转换数据集,增强效果
6.特征学习,用简单的神经网络学习特征

一、特征理解
假设数据已经使用pandas进行读取,变量名为df

 

数据可以分为四个等级:

等级属性描述性统计图表定类离散 无序频率/占比,众数条形图,饼图定序有序类别 比较频率,众数,中位数,百分位数条形图,饼图,茎叶图定距数字差别有意义频率,众数,中位数,均值,标准差条形图,饼图,茎叶图,箱线图,直方图定比连续均值,标准差直方图,箱线图

二、特征增强
一下均假设得到的数据集为df,x为df的自变量集合,y为df的因变量集合
1.删除无数据的行

 

在删除了之后需要比较一下各列均值的变化

 

2.填充缺失值
可以使用0或者均值进行填充

 

使用填充器填充

 

3.参数搜索
使用参数搜索自动寻找最佳模型,假设这里尝试寻找参数最好的KNN模型

 

4.机器学习流水线
使用流水线,可以将各个模块按照流水形式组装结合,对输入的数据进行处理

 

5.标准化和归一化
(1)z分数标准化,使得均值为0,标准差为1

 

(2)min-max标准化,使得所有值在0-1之间

 

(3)行归一化,使得每行的向量长度相同

 

三、特征构建
1.自定义填充器
(1)自定义分类填充器

 

(2)自定义分量填充器

 

2.编码分类变量
(1)定类等级的编码

 

(2)定序等级的编码

 

3.扩展数值特征
(1)多项式特征

 

4.针对文本的特征构建
(1)词袋法

 

(2)tf-idf向量化

 

四、特征选择
1.基于统计的特征选择
(1)皮尔逊相关系数

 

(2)假设检验

 

2.基于模型的特征选择
(1)基于树模型

 

根据阈值进行模型选择

 

(2)正则化
分为L1正则化和L2正则化

 

五、特征转换
1.主成分分析,用于对原数据进行降维

 

2.线性判别分析,用于对数据分类划分出决策边界

 

(未完)

编程小号
上一篇 2025-02-26 22:17
下一篇 2025-02-07 15:30

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/69252.html