数据分析"坑"途多，以下让你“跌倒”的常见错误，中招没1

显示全部楼层

本帖最后由喝酸奶不舔盖于 2024-2-21 10:56 编辑

从事数据分析的过程当中，往往会在不经意间犯一些思维逻辑上的错误，导致分析结果出现失真的情况。这里帮助大家，从「数据获取、数据分析、数据挖掘」三个环节，总结出八种常犯错误，看看你是否有意识避开。
一、数据获取环节

错误1：底层逻辑一知半解，主观臆断输出数据
在刚刚接手新业务，对于底层数据还不是很了解的情况下，经常犯该类错误。例如：业务需要你输出主页pv数据，你通过A表发现有一个字段为主页pv，于是在不假思索的情况下，使用了该表中的该字段，却未发现，这两个主页pv含义并不一致。解决方案：数据侧，通过表的血缘关系，熟悉核心表的生成逻辑，确保每个字段都了然于心；业务侧，与业务聊需求时，要将需求细化到每个指标的逻辑含义，并得到业务方的认同。

错误2：抽取分析样本，不知不觉陷入幸存者偏差
幸存者偏差相信大家都有所耳闻，通俗来讲就是：分析的抽样样本，被人为的进行主动或被动的筛选，导致样本无法代表总体。举两个案例，大家看看是否遇到过：

案例1：小白需要对某APP做用户满意度调研，于是抽取了某日的活跃用户发放调研问卷。
案例2：小红需要分析一下C功能是否对用户的活跃度产生影响，由于C功能入口较深，于是，小红用APP大盘用户与应用C功能的用户做对比，发现应用过C功能的用户活跃度明显高于大盘，于是得出C功能对用户的活跃有明显正向作用。

以上两个案例，是我们日常工作中经常遇到的，相信大家也看出来了，均存在幸存者偏差。
解决方案：筛选用户的时候，分析组与对照组用户要能够在各个维度上尽量打平，可通过PSM（倾向性得分）进行拉平，在此基础之上，再进行各种分析应用。

错误3：样本不是总体，分布存在差异
在一些分析场景中，由于总体数据量级较大，因此，常常使用随机抽样的方式，用样本结果代替总体结果。但往往由于样本与总体的分布存在差异，从而导致结论有偏。AB实验是最常遇到的场景之一。
AB实验当中，由于指标在不同量级上的稳定性存在差异，因此会出现，实验全量上线后的效果，与实验期的效果，存在差别。
解决方案：控制抽取样本的完全随机性，以及通过假设检验方式，判断需要的最小样本量，保证样本结论与总体结论尽可能方向一致。

二、数据分析环节错误

错误4：绝对值与相对值，哪个更具有代表意义？
在给出数据结论时，经常会用到绝对或相对变化进行度量。一般在对整体指标进行前后时间段对比时，相对值会更直观一些。那抛出一个问题，如果是多维度及多维度值，评估指标对大盘的影响，用绝对值好，还是相对值好呢？

通过绝对值来表现：量级越大的维度值，指标绝对变化普遍偏大，不足以得出结论；

通过相对值来表现：量级越小的维度值，指标波动往往较大，相对差异普遍偏大，同样不足以得出结论。

解决方案：引入贡献度的概念，将维度值变化情况归总到整体，评估对整体的影响程度。

显示全部楼层

学习了

显示全部楼层

数据决策新引擎：vividime七大智能分析功能让决策快人一步！

掘金数据富矿，永洪科技为山东黄金定制“数智掘金”实战营 ...

永洪科技荣获商业智能品牌影响力奖，全力打造”AI+决策”引擎 ...

IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔 ...

数据可视化新招式：永洪vividimeGIS地图框选传参联动全解析

朝花夕拾

yhdata_38fa8dc0

小尹

Dream-lover

头号WAN家

阿姆斯特朗炮

防超

永洪蓝波湾

happypanda

给给

卡拉米米哇

yhbi老6了

许诺

yhdata_PnTrTUTk

特兰克斯

热门产品

社区资源

关于永洪