数据清洗

发表时间：2024-09-28 17:45:53

数据清洗

1. 均值插值法

2. 回归插值法

3. EM算法

4. 多重插值

A12J 1. 均值插值法

均值插补是利用样本数据平均值或众数作为其替代值对数据进行插值。均值插补的插补值计算方程为：

（1）

其中，为是否回答的描述符号表示，表示“是”，表示“否”，是个数

2. 回归插值法

回归插值是根据样本中缺失变量和已得到变量构建回归方程，即根据已有的样本数据，对调查中目标变量的缺失值进行估算。构建自变量与目标变量Y的关系，且第个缺失值的插补估算值可表示为：

(2)

由上式得出，对于相同的，回归变换后，得出相同的估计值，其结果与均值插值一致。所以在回归过程中需要增加随机因素，以此来填补该插值法中的缺陷。此时该回归方程表示为：

其中，表示构建数据集。

3. EM算法 4. 多重插值

Rubin在80年代初期以单一插值法为基础，提出的多重插值法(multiple imputation)

4.1 主要思想

给每个缺失值都构造m个插补值(m>1), 根据每个插补值都产生一个完整数据集，这样，经过m次插补就可以产生m个完整数据集；对每组完整数据集使用标准的完整数据分析进行分析，得到m次分析结果；综合m次分析结果得到最终结果。多重插值的形式各异，但一般都要经过以下三个步骤，即：1、插补 imputation； 2、分析 analysis；3、合并 pooling

4.2 优缺点

插补法主要经历了单一插补和多重插补两个阶段，多重插补法的出现，弥补了单一插补法的缺陷。

优点：1. 多重插补过程产生多个中间插补值，可以利用插补值之间的变异反映无回答的不确定性，包括无回答原因已知情况下抽样的变异性和无回答原因不确定造成的变异性；

2. 多重插补通过模拟缺失数据的分布，较好地保持变量之间的关系；

3. 多重插补能给出衡量估计结果不确定性的大量信息，单一插补给出的估计结果则较为简单。

缺点：与单一插值相比，多重插补唯一的缺点是需要做大量的工作来创建插补集并进行结果分析，无论是何种情况下的多重插补，其处理过程都是比较复杂的，新的统计计算方法的出现大大简化了计算并完成一系列简单的极大化或模拟。

4.3 一般过程

上一篇 客服人员应该具备的素质和技能：从心理素质到专业知识技能<客服人员打字速度的要求是什么>

下一篇优化批量矩阵乘法opencl代码