[专家分享]
商务数据分析对精度要求很高数据清理注意事项都有哪些
数据清洗是发现并纠正数据中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。建议根据过往经验可先一一列举出以往分析过程中已经出现过问题,避免因为遗漏检查该项而导致在分析过程中需要返工的情况
蒋公子在做某项专题分析时,通常会做两件事:
确认数据日期范围内系统有无异常、有无做测试:如有异常,确认异常部分是否已被技术删除,如有测试,需先剔除测试数据,这一步非常重要;
列举上一次分析时该系统数据已经出现过的问题,重点先检查该项;
数据清洗过程其主要包括:
→对所有数据源的质量进行初步审核,比如剔除测试数据,客户调研中的无效答卷;
→对数据进行编码,编码主要有事前编码和事后编码,事前编码主要针对封闭式,而事后编码则主要是针对开放式,编码有三个工作,第一是定义数据的变量名,第二定义变量名标签,即这个变量代表什么意思,第三定义变量值及值标签即变量的取值以及这个取值的含义,如变量名为sex,其变量标签为性别变量标签为“性别”变量取值为“1”或“2”分别表示“男”和“女”,这一过程类似于数据转换;
→完成数据的预处理后,需要录入数据,录入后的数据清理一般是由计算机而不是人工完成;
数据清理是数据分析结论有效和准确的基本保证如果底层数据有问题很可能会被误导,得出差异极大的分析结论,因而在录入的时候我们需要保证数据质量
质量有很多维度包括一致性、完整性、实体同一性等问题
一致性是指数据需要满足一致性约束,例如函数依赖、条件函数依赖等
完整性是指数据的表,字段不存在缺失实体
同一性是指同一物在数据库中仅有唯一表示实际应用中针对一致性主要是先挖掘函数依赖性,条件函数依赖、再进行查找针对完整性、主要是先补齐或者研究数据不完整情况下的数据挖掘针对实体同一性、主要是利用各种实体识别算法
数据清理是一件非常耗时费力的工作,最佳的工作方式就是制定计划重视细节且不急躁,试图速战速决只会适得其反引入更多的错误,所以数据清理一段时间后,做好记录并放在一边缓一缓,忙完其他工作再重新进行数据清理的时候很可能会有新的发现
文章来源:公众号数据分析之渔
|
|
|
|
|