找文章 / 找答案
精选问答 更多内容

数据分析"坑"途多,以下让你“跌倒”的常见错误,中招没2

喝酸奶不舔盖青铜四 显示全部楼层 发表于 2024-2-21 11:02:23 |阅读模式 打印 上一主题 下一主题
本文将接着上篇文章,分享后四种,数据分析思维误区。

一、数据分析环节
错误5:相关性与因果性,傻傻分不清
相关性与因果性这对亲戚,在数据分析日常工作中会经常碰到,并且不只一次的混淆众人。经典案例:冰激凌销量与溺水人数成正比,两者并非有任何因果关系,只是由于天气热这个共同因素,导致销量与溺水数量成同趋势上涨,两者呈现相关关系而已。
解决方案:判断两者是否有相关性,可通过相关系数等方式;判断两者是否有因果性,可通过AB实验等方式。

错误6:追求高端技术,放弃简单方式
这一点,一般是刚入行的同学经常会陷入的误区。解决问题的过程当中,过于追求复杂的技术,重技术本身,轻业务价值,通常体现在以下三个方面上:
  • 分析追求高端:能够用简单方法解决的,非要用复杂且不好解释的方式。
  • 算法追求高端:能够用准召一致、处理效率较高的树模型解决的问题,非要用占用GPU资源的深度学习模型来解决。
  • 展现追求高端:能够用一张简单线性图表达的,非要加入很多高端且不实用的元素。
解决方案:化繁为简原则,能用简单方式更快、更好解决的,绝不采用复杂方式处理。

二、数据挖掘环节
错误7:做模型过程中,不区分训练集和测试集
在做数据挖掘的过程中,为了验证模型的优劣,常常需要将现有样本剥离出一部分,作为测试样本,进行模型的优劣验证。这一点也是很多同学忽略的环节。
解决方案:在特征处理后、模型搭建前,将样本一分为二,训练集与测试集比例,一般为8:2或者7:3,依据总样本量的大小而定。


错误8:谨防过拟合风险,导致训练过程效果很好,上线后效果欠佳
过拟合是影响模型预测效果的一个很大因素,也是很多同学会忽略的问题。过拟合指创建的模型,在训练过程中表现很好,但一旦到了预测上,则准确性欠佳。其中,主要由于训练模型过于与训练样本吻合,从而将很多极端点的行为学习其中,影响真实预测效果。这一点在树模型中体现较为直观。
解决方案:可通过交叉验证、缩减特征、控制训练深度、增加正则化等方式进行解决。




回复

使用道具 举报

高级模式
您需要登录后才可以回帖 登录 | 免费注册

  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |《永洪社区协议》
返回顶部