cds的数据采集与分析_cda数据分析

cds的数据采集与分析_cda数据分析PART3数据采集及预处理一、数据采集方法1.1一手数据与二手数据3.1概率抽样方法⼆、市场调研1.1市场调研的基本步骤1.2单选题及多项选择题的设置1.3数据编码及录入三、数据探索与可视化四、数据预处理⽅法1.1数据预处理的基本步骤2.1数据清洗

PART 3 数据采集及预处理

一、数据采集方法

在这里插入图片描述

1.1 一手数据与二手数据
  • 一手数据(Primary data):也称为原始数据,是指直接获取,没有经过加工或者第三方传递获得的数据。

  • 二手数据(Secondary data):指的是通过第三方或者是现有的数据资料获取的数据。

企业如果⽤于自行使用开发,那么就属于是⼀⼿数据。而如果用于数据交换或者共享,那么对于接收⽅来说,这些数据,就属于二手数据。

在这里插入图片描述
在这里插入图片描述

在一手数据的使用过程,需要特别注意的是,要对采集回来的数据进⾏逻辑合理性验证。在统计学中,有GIGO(Garbage In Garbage Out)这样的⼀个说法.

在选择二手数据时,应该尽量挑选权威、主流的机构作为数据来源。

抽样误差(Sampling Error)的大小,主要由样本容量的大小和抽样方式来决定。

在这里插入图片描述

3.1 概率抽样方法

在这里插入图片描述

  • 简单随机抽样(Simple Random Sampling) :总体中的每个样本都有同等的被抽取到的机会 。可以用以下的公式来确定样本量和抽样误差之间的关系
    n = ( Z α / 2 ) 2 σ 2 E 2 n=\frac{(Z_{\alpha/2})^2\sigma^2}{E^2} n=E2(Zα/2)2σ2
    其中 n n n表示样本量, Z α / 2 Z_{\alpha/2} Zα/2为置信区间,一般去1.96(95%)置信区间, σ \sigma σ为总体标准差, E E E为抽样误差范围 。因此根据这个公式,可以实现 n n n E E E之间的互相推导。

  • 分层抽样(Stratifified Sampling)简单随机抽样的假设并不总是成立。如果总体可以按照⼀些特征分成若干层。层与层之间差异明显,每个层内部的个体特征相近,那么我们可以对每个层做简单随机抽样。抽样结果合并的集合,就是我们最终确认的抽样样本。

  • 系统抽样(Systematic Sampling) : 使⽤系统抽样的时候,仍然需要将个体进行编号,然后根据抽样样本容量决定抽样的间距。因此⼜叫做等距抽样或者机械抽样。

  • 分段抽样(Multi-stage Sampling) :分段抽样中,我们⾸先把总体划分成⼀些大小差不多的群体。在这些群体中随机抽取几个。被抽中的群体,就作为下⼀步进行随机抽样的“总体”。

在这里插入图片描述


⼆、市场调研

在这里插入图片描述

1.1 市场调研的基本步骤

提出问题—>调查收集资料—>分析预测问题

1.2 单选题及多项选择题的设置

在设计单选题的时候,我们需要注意选项间的关系,尽量做到不重不漏,避免答题者产⽣混淆和困扰。

在必须使⽤多项选择题的时候,选项的罗列要有⼀定的逻辑关系,避免⽆意义地增加选项,给后续的录入和分析造成麻烦。

1.3 数据编码及录入

三、数据探索与可视化

在这里插入图片描述

四、数据预处理⽅法

在这里插入图片描述

1.1 数据预处理的基本步骤
  • 数据集成

  • 数据探索

    • 集中趋势 ,我们⼀般可以通过平均值、中位数、众数来衡量

    • 离散程度 ,我们⼀般则可以⽤极差、⽅差、标准差、分位数来评估。

    • 箱形图(Box-plot)

在这里插入图片描述

  • Q-Q图(Q-Q Plot)
    在这里插入图片描述

  • 散点图(Scatter Plot)

在这里插入图片描述

  • 数据变换

    • Z-score标准化 Z = x − μ σ Z=\frac{x-\mu}{\sigma} Z=σxμ,其中 μ \mu μ为均值, σ \sigma σ是变量的标准差

      Z-score可以理解为,数据落在平均值几倍的标准差范围内。变换后,变量的取值范围仍然是
      (-∞,+∞)。新⽣成的变量均值为0,方差为1。在不确定最大最小值,或者存在极端离群点的情况
      下,⽤Z-score标准化是比较好的选择。

    • 最大最小标准化 X = x − m i n m a x − m i n X=\frac{x-min}{max-min} X=maxminxmin, 变换后,变量的取值范围变为[0,1]。最大最小标准化有⼀个缺陷是,当引入新的数据后,需要重新计算 m i n min min m a x max max的取值。

    • 小数定标法 :小数定标法是通过移动数据的小数点位置进行标准化

  • 数据归约(简化)

    • 维度归约 :降维、聚类

    • 数值规约 :直方图、抽样、聚类、数据分箱

    在这里插入图片描述

2.1 数据清洗

2.1.1 填补遗漏的数据值

  • 常数法
  • 中位数或者众数
  • 随机数方法
  • 模型法

2.1.2 平滑有噪声数据

⼀般平滑有噪声数据的⽅法有分箱法、聚类法,也可以通过移动平均的方法来进行过滤平滑

2.1.3 识别或去除异常值

箱线图或者散点图来判断,不一定需要清除

2.1.4 解决不⼀致问题

2.1.5 查重

内容比较简单,了解即可

本文链接:http://t.csdn.cn/n0VLj

转载请显示来源~~

今天的文章
cds的数据采集与分析_cda数据分析分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/80494.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注