[数据分析]
数据分析"坑"途多,以下让你“跌倒”的常见错误,中招没1
本帖最后由 喝酸奶不舔盖 于 2024-2-21 10:56 编辑
从事数据分析的过程当中,往往会在不经意间犯一些思维逻辑上的错误,导致分析结果出现失真的情况。这里帮助大家,从「数据获取、数据分析、数据挖掘」三个环节,总结出八种常犯错误,看看你是否有意识避开。
一、数据获取环节
错误1:底层逻辑一知半解,主观臆断输出数据
在刚刚接手新业务,对于底层数据还不是很了解的情况下,经常犯该类错误。例如:业务需要你输出主页pv数据,你通过A表发现有一个字段为主页pv,于是在不假思索的情况下,使用了该表中的该字段,却未发现,这两个主页pv含义并不一致。解决方案:数据侧,通过表的血缘关系,熟悉核心表的生成逻辑,确保每个字段都了然于心;业务侧,与业务聊需求时,要将需求细化到每个指标的逻辑含义,并得到业务方的认同。
错误2:抽取分析样本,不知不觉陷入幸存者偏差
幸存者偏差相信大家都有所耳闻,通俗来讲就是:分析的抽样样本,被人为的进行主动或被动的筛选,导致样本无法代表总体。举两个案例,大家看看是否遇到过:
案例1:小白需要对某APP做用户满意度调研,于是抽取了某日的活跃用户发放调研问卷。
案例2:小红需要分析一下C功能是否对用户的活跃度产生影响,由于C功能入口较深,于是,小红用APP大盘用户与应用C功能的用户做对比,发现应用过C功能的用户活跃度明显高于大盘,于是得出C功能对用户的活跃有明显正向作用。
以上两个案例,是我们日常工作中经常遇到的,相信大家也看出来了,均存在幸存者偏差。
解决方案:筛选用户的时候,分析组与对照组用户要能够在各个维度上尽量打平,可通过PSM(倾向性得分)进行拉平,在此基础之上,再进行各种分析应用。
错误3:样本不是总体,分布存在差异
在一些分析场景中,由于总体数据量级较大,因此,常常使用随机抽样的方式,用样本结果代替总体结果。但往往由于样本与总体的分布存在差异,从而导致结论有偏。AB实验是最常遇到的场景之一。
AB实验当中,由于指标在不同量级上的稳定性存在差异,因此会出现,实验全量上线后的效果,与实验期的效果,存在差别。
解决方案:控制抽取样本的完全随机性,以及通过假设检验方式,判断需要的最小样本量,保证样本结论与总体结论尽可能方向一致。
二、数据分析环节错误
错误4:绝对值与相对值,哪个更具有代表意义?
在给出数据结论时,经常会用到绝对或相对变化进行度量。一般在对整体指标进行前后时间段对比时,相对值会更直观一些。那抛出一个问题,如果是多维度及多维度值,评估指标对大盘的影响,用绝对值好,还是相对值好呢?
通过绝对值来表现:量级越大的维度值,指标绝对变化普遍偏大,不足以得出结论;
通过相对值来表现:量级越小的维度值,指标波动往往较大,相对差异普遍偏大,同样不足以得出结论。
解决方案:引入贡献度的概念,将维度值变化情况归总到整体,评估对整体的影响程度。
|
|
|
|
|
zyj20230601
来自手机
显示全部楼层
发表于 2024-2-27 09:50:11
|
|
|
|
防超
显示全部楼层
发表于 2024-2-27 09:54:15
|
|
|
|