数据分析中,数据的数量和质量都非常重要,但相对来说,数据质量更加关键。
以下几点原因:
1. 质量差的数据,无论数量大还是小,得出的分析结果都不具备参考价值。
2. 数量少但质量好的数据,通过合理的分析方法,也可以得出有意义的结论。
3. 清理差质量的数据需要花费大量时间。数据量越大,清理难度越高。
4. 质量好的数据,即使量少,也可以设法 Expand the data set通过补充数据提高数量。但质量差的数据很难通过数量来“弥补”。
5. 质量差的大数据容易导致分析结果出现误导。分析误导风险大于分析缺乏信息风险。
6. 数据分析的目的是获取有价值的信息。质量差的数据很难提取有效信息。
7. 许多先进的分析算法对数据质量非常敏感。质量差数据会导致分析失败。
总之,数据分析要注意质与量的结合。但如果两者之间需要权衡,数据质量应该是首要的考虑因素。 |