找文章 / 找答案
精选问答 更多内容

[数据分析] 商务数据分析对精度要求很高数据清理注意事项都有哪些

puffs 显示全部楼层 发表于 2024-7-29 18:26:07 |阅读模式 打印 上一主题 下一主题
  数据清洗是发现并纠正数据中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。建议根据过往经验可先一一列举出以往分析过程中已经出现  过问题,避免因为遗漏检查该项而导致在分析过程中需要返工的情况



蒋公子在做某项专题分析时,通常会做两件事:
  • 确认数据日期范围内系统有无异常、有无做测试:如有异常,确认异常部分是否已被技术删除,如有测试,需先剔除测试数据,这一步非常重要;
  • 列举上一次分析时该系统数据已经出现过的问题,重点先检查该项;

    数据清洗过程其主要包括:

    • 对所有数据源的质量进行初步审核,比如剔除测试数据,客户调研中的无效答卷;
    • 对数据进行编码,编码主要有事前编码和事后编码,事前编码主要针对封闭式,而事后编码则主要是针对开放式,编码有三个工作,第一是定义数据的变量名,第二定义变量名标签,即这个变量代表什么意思,第三定义变量值及值标签即变量的取值以及这个取值的含义,如变量名为sex,其变量标签为性别变量标签为“性别”变量取值为“1”或“2”分别表示“男”和“女”,这一过程类似于数据转换;
    • 完成数据的预处理后,需要录入数据,录入后的数据清理一般是由计算机而不是人工完成;

    数据清理是数据分析结论有效和准确的基本保证如果底层数据有问题很可能会被误导,得出差异极大的分析结论,因而在录入的时候我们需要保证数据质量。

    质量有很多维度包括一致性、完整性、实体同一性等问题

    一致性是指数据需要满足一致性约束,例如函数依赖、条件函数依赖等。
    完整性是指数据的表,字段不存在缺失实体
    同一性是指同一物在数据库中仅有唯一表示实际应用中针对一致性主要是先挖掘函数依赖性,条件函数依赖、再进行查找针对完整性、主要是先补齐或者研究数据不完整情况下的数据挖掘针对实体同一性、主要是利用各种实体识别算法
    数据清理是一件非常耗时费力的工作,最佳的工作方式就是制定计划重视细节且不急躁,试图速战速决只会适得其反引入更多的错误,所以数据清理一段时间后,做好记录并放在一边缓一缓,忙完其他工作再重新进行数据清理的时候很可能会有新的发现

    公众号:数据分析之渔

回复

使用道具 举报

高级模式
您需要登录后才可以回帖 登录 | 免费注册

  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |《永洪社区协议》
返回顶部