PART 3 数据采集及预处理
文章目录
一、数据采集方法
1.1 一手数据与二手数据
-
一手数据(Primary data):也称为原始数据,是指直接获取,没有经过加工或者第三方传递获得的数据。
-
二手数据(Secondary data):指的是通过第三方或者是现有的数据资料获取的数据。
企业如果⽤于自行使用开发,那么就属于是⼀⼿数据。而如果用于数据交换或者共享,那么对于接收⽅来说,这些数据,就属于二手数据。
在一手数据的使用过程,需要特别注意的是,要对采集回来的数据进⾏逻辑合理性验证。在统计学中,有GIGO(Garbage In Garbage Out)这样的⼀个说法.
在选择二手数据时,应该尽量挑选权威、主流的机构作为数据来源。
抽样误差(Sampling Error)的大小,主要由样本容量的大小和抽样方式来决定。
3.1 概率抽样方法
-
简单随机抽样(Simple Random Sampling) :总体中的每个样本都有同等的被抽取到的机会 。可以用以下的公式来确定样本量和抽样误差之间的关系
n = ( Z α / 2 ) 2 σ 2 E 2 n=\frac{(Z_{\alpha/2})^2\sigma^2}{E^2} n=E2(Zα/2)2σ2
其中 n n n表示样本量, Z α / 2 Z_{\alpha/2} Zα/2为置信区间,一般去1.96(95%)置信区间, σ \sigma σ为总体标准差, E E E为抽样误差范围 。因此根据这个公式,可以实现 n n n和 E E E之间的互相推导。 -
分层抽样(Stratifified Sampling) :简单随机抽样的假设并不总是成立。如果总体可以按照⼀些特征分成若干层。层与层之间差异明显,每个层内部的个体特征相近,那么我们可以对每个层做简单随机抽样。抽样结果合并的集合,就是我们最终确认的抽样样本。
-
系统抽样(Systematic Sampling) : 使⽤系统抽样的时候,仍然需要将个体进行编号,然后根据抽样样本容量决定抽样的间距。因此⼜叫做等距抽样或者机械抽样。
-
分段抽样(Multi-stage Sampling) :分段抽样中,我们⾸先把总体划分成⼀些大小差不多的群体。在这些群体中随机抽取几个。被抽中的群体,就作为下⼀步进行随机抽样的“总体”。
⼆、市场调研
1.1 市场调研的基本步骤
提出问题—>调查收集资料—>分析预测问题
1.2 单选题及多项选择题的设置
在设计单选题的时候,我们需要注意选项间的关系,尽量做到不重不漏,避免答题者产⽣混淆和困扰。
在必须使⽤多项选择题的时候,选项的罗列要有⼀定的逻辑关系,避免⽆意义地增加选项,给后续的录入和分析造成麻烦。
1.3 数据编码及录入
三、数据探索与可视化
四、数据预处理⽅法
1.1 数据预处理的基本步骤
-
数据集成
-
数据探索
-
集中趋势 ,我们⼀般可以通过平均值、中位数、众数来衡量
-
离散程度 ,我们⼀般则可以⽤极差、⽅差、标准差、分位数来评估。
-
箱形图(Box-plot)
-
-
Q-Q图(Q-Q Plot)
-
散点图(Scatter Plot)
-
数据变换
-
Z-score标准化 : Z = x − μ σ Z=\frac{x-\mu}{\sigma} Z=σx−μ,其中 μ \mu μ为均值, σ \sigma σ是变量的标准差
Z-score可以理解为,数据落在平均值几倍的标准差范围内。变换后,变量的取值范围仍然是
(-∞,+∞)。新⽣成的变量均值为0,方差为1。在不确定最大最小值,或者存在极端离群点的情况
下,⽤Z-score标准化是比较好的选择。 -
最大最小标准化 : X = x − m i n m a x − m i n X=\frac{x-min}{max-min} X=max−minx−min, 变换后,变量的取值范围变为[0,1]。最大最小标准化有⼀个缺陷是,当引入新的数据后,需要重新计算 m i n min min和 m a x max max的取值。
-
小数定标法 :小数定标法是通过移动数据的小数点位置进行标准化
-
-
数据归约(简化)
-
维度归约 :降维、聚类
-
数值规约 :直方图、抽样、聚类、数据分箱
-
2.1 数据清洗
2.1.1 填补遗漏的数据值
- 常数法
- 中位数或者众数
- 随机数方法
- 模型法
2.1.2 平滑有噪声数据
⼀般平滑有噪声数据的⽅法有分箱法、聚类法,也可以通过移动平均的方法来进行过滤平滑
2.1.3 识别或去除异常值
箱线图或者散点图来判断,不一定需要清除
2.1.4 解决不⼀致问题
2.1.5 查重
内容比较简单,了解即可
本文链接:http://t.csdn.cn/n0VLj
转载请显示来源~~
今天的文章
cds的数据采集与分析_cda数据分析分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/80494.html