数据分析"坑"途多,以下让你“跌倒”的常见错误,中招没2
本文将接着上篇文章,分享后四种,数据分析思维误区。
一、数据分析环节
错误5:相关性与因果性,傻傻分不清
相关性与因果性这对亲戚,在数据分析日常工作中会经常碰到,并且不只一次的混淆众人。经典案例:冰激凌销量与溺水人数成正比,两者并非有任何因果关系,只是由于天气热这个共同因素,导致销量与溺水数量成同趋势上涨,两者呈现相关关系而已。
解决方案:判断两者是否有相关性,可通过相关系数等方式;判断两者是否有因果性,可通过AB实验等方式。
错误6:追求高端技术,放弃简单方式
这一点,一般是刚入行的同学经常会陷入的误区。解决问题的过程当中,过于追求复杂的技术,重技术本身,轻业务价值,通常体现在以下三个方面上:
- 分析追求高端:能够用简单方法解决的,非要用复杂且不好解释的方式。
- 算法追求高端:能够用准召一致、处理效率较高的树模型解决的问题,非要用占用GPU资源的深度学习模型来解决。
- 展现追求高端:能够用一张简单线性图表达的,非要加入很多高端且不实用的元素。
解决方案:化繁为简原则,能用简单方式更快、更好解决的,绝不采用复杂方式处理。
二、数据挖掘环节
错误7:做模型过程中,不区分训练集和测试集
在做数据挖掘的过程中,为了验证模型的优劣,常常需要将现有样本剥离出一部分,作为测试样本,进行模型的优劣验证。这一点也是很多同学忽略的环节。
解决方案:在特征处理后、模型搭建前,将样本一分为二,训练集与测试集比例,一般为8:2或者7:3,依据总样本量的大小而定。
错误8:谨防过拟合风险,导致训练过程效果很好,上线后效果欠佳
过拟合是影响模型预测效果的一个很大因素,也是很多同学会忽略的问题。过拟合指创建的模型,在训练过程中表现很好,但一旦到了预测上,则准确性欠佳。其中,主要由于训练模型过于与训练样本吻合,从而将很多极端点的行为学习其中,影响真实预测效果。这一点在树模型中体现较为直观。
解决方案:可通过交叉验证、缩减特征、控制训练深度、增加正则化等方式进行解决。
|
|
|
|
|