找文章 / 找答案
精选问答 更多内容

[数据分析] 数据会说谎?带你识别6种常见的数据陷阱

puffs 显示全部楼层 发表于 2024-2-22 10:43:19 |阅读模式 打印 上一主题 下一主题
数据,正逐渐成为一种重要的生产资料。我们在进行产品开发,运营活动效果复盘,都需要数据辅助决策,而看起来人畜无害的客观数据,却在各种各样的场合,以各种意想不到的情况欺骗大家的眼睛。
下面就让我们一起看下在什么样的场景下,会出现这种情况,我们又如何避免呢?


1、 样本偏差
大家应该都听过一个段子:过年返乡的列车上,记者向着车厢问到:买到票的朋友请把手举起来!刹那间,车厢里的乘客都将手举了起来,记者激动的播报着:从这里可以看出,群众们乘车难的问题已得到解决,每个人都有火车票!
这里其实是犯了样本偏差的错误,从一个有限的样本中推断总体特征时,样本可能不具有代表性,导致对总体的错误认识。这种情况下,数据的陷阱来自于样本的选择或采集方法。解决这个问题的方法之一是使用随机抽样来确保样本的代表性。
一个实际案例:
某公司要评估某款新产品在市场上的受欢迎程度。他们决定在购物中心进行了一次问卷调查,收集了500份调查问卷。
调查结果显示有80%的受访者对新产品表示喜欢和有意愿购买。基于这个结果,市场调研公司得出结论认为新产品在市场上将受到广泛欢迎,并投入大量资源进行市场推广。
然而,结果显示新产品的销量远不及预期。公司内进行复盘,发现问卷调查可能有问题。
因为,调查问卷仅发放给购物中心的访客,未能涵盖更广泛的消费者群体,包括其他渠道或者不常去购物中心的消费者,他们的观点可能不同。这可能导致市场调研公司过度估计了新产品的市场潜力。
为了避免样本偏差导致结论出错的情况发生,市场调研应该采用多种渠道和方法,以确保样本具有代表性。可以在购物中心之外的其他地方进行调查,或者使用在线调查等方式进行数据收集,以覆盖更广泛的消费者群体。这样可以更全面地了解市场对新产品的态度和需求,并制定更准确的决策。

2、 数据口径问题
假设有两个机构A和B,它们都在报告某个国家的失业率。
  • 机构A使用广义定义上的失业率,包括所有正在寻找工作但没有找到的人,并将其与劳动力总数相除。根据机构A的统计数据,失业率为5%。
  • 机构B使用狭义定义上的失业率,仅包括那些正在寻找工作但没有找到的人,并将其与就业人口相除。根据机构B的统计数据,失业率为3%。
由于机构A和机构B使用了不同的统计口径,导致了失业率的差异。机构A的统计方法更加宽泛,包括更多的人群,因此失业率较高。
而机构B的统计方法较为严格,只计算特定群体的失业率,因此失业率较低。
这种差异可能会对政策制定和经济分析产生重要影响。例如,机构A可能会认为需要采取更多的就业刺激措施,而机构B可能会认为就业市场已经相对健康。
这个案例表明,即使数据都是正确的,但是因为数据统计口径不同,进行解释时,结论不一致的情况也会发生。

3、 基数问题
(1)某件商品在50%折扣的基础上再打20%折扣,我们容易以为会有70%的折扣。
实际上,折扣只有60%——因为后面20%的折扣实在50%即五折的基础上折算的。
(2)A基金年化收益率对比去年增加了100%!容易让人热血沸腾,下一秒就想梭哈。
实际情况可能是:A基金去年的年化收益率只有1%,今年达到了2%,而同期的银行利率可能高于这个数。

4、 样本分布是非正态分布
用平均数掩盖分布。
美国前总统小布什在竞选演讲中曾经说到:我的2003年的减税计划让4000多万美国家庭平均少纳税1586美元,从纯数字角度来看,没有任何问题。但是这里有很强的误导性。
因为财富的分配不服从正态分布,大部分家庭收入不高,减税的额度非常有限,但小部分收入极高的家庭,减税的额度甚至能达到几十万美元,从而拉高了平均数。
实际上,当年减税的中位数是650美元,可以理解为有一半的家庭减税额度都没达到650美元。

5、 数据样本不足
“今年经济学院的新来的研究生,有三分之一身高超过一米九,我们学院今年篮球赛夺冠有希望了。”
实际上,今年只录取了三名研究生,其中一个人身高超过了一米九。
这里其实犯了数据样本不足的问题,因为样本不足,用百分比掩盖规模。导致数据解读出误。

6、 信息不完整
有这样一则数据:过去几十年,癌症的死亡人数增多。
这个数据结论看起来非常吓人。但实际上忽略了很多其他因素。如:
  • 现在的人数远远超过以前;
  • 由于医学的进步,从前很多死因不明的案例,在现在,都被归到了具体的癌症类别;
  • 因为现代社会的发展,各个易发病的年龄段人数在不断增加;
这里是犯了信息不完整的错误,有时候,我们在分析或总结事物时可能会遗漏某些变化的原因。这可能是因为我们没有获得所有相关数据,或者我们只关注了部分信息而忽略了其他方面。

总结

以上,我们通过具体的案例总结了数据误导性的六种常见的类型。分别是:样本偏差、数据口径问题、基数问题、样本分布是非正态分布、数据样本不足、信息不完整。
再遇到别人用数据做出的论断时,建议先对照着上述的九种场景,防止陷入数据陷阱。
数据不会说谎,但解读数据的人会。

回复

使用道具 举报

精彩评论1

zyj20230601青铜四 来自手机 显示全部楼层 发表于 2024-2-28 10:00:54
学习了
回复

使用道具 举报

高级模式
您需要登录后才可以回帖 登录 | 免费注册

  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |《永洪社区协议》
返回顶部