永洪社区

标题: 数据分析"坑"途多，以下让你“跌倒”的常见错误，中招没2 [打印本页]

作者: 喝酸奶不舔盖 时间: 2024-2-27 16:55
标题: 数据分析"坑"途多，以下让你“跌倒”的常见错误，中招没2
本文将接着上篇文章https://club.yonghongtech.com/thread-66011-1-1.html 分享后四种，数据分析思维误区。

一、数据分析环节
错误5：相关性与因果性，傻傻分不清
相关性与因果性这对亲戚，在数据分析日常工作中会经常碰到，并且不只一次的混淆众人。经典案例：冰激凌销量与溺水人数成正比，两者并非有任何因果关系，只是由于天气热这个共同因素，导致销量与溺水数量成同趋势上涨，两者呈现相关关系而已。

解决方案：判断两者是否有相关性，可通过相关系数等方式；判断两者是否有因果性，可通过AB实验等方式。

错误6：追求高端技术，放弃简单方式
这一点，一般是刚入行的同学经常会陷入的误区。解决问题的过程当中，过于追求复杂的技术，重技术本身，轻业务价值，通常体现在以下三个方面上：

分析追求高端：能够用简单方法解决的，非要用复杂且不好解释的方式。
算法追求高端：能够用准召一致、处理效率较高的树模型解决的问题，非要用占用GPU资源的深度学习模型来解决。
展现追求高端：能够用一张简单线性图表达的，非要加入很多高端且不实用的元素。

解决方案：化繁为简原则，能用简单方式更快、更好解决的，绝不采用复杂方式处理。

二、数据挖掘环节
错误7：做模型过程中，不区分训练集和测试集
在做数据挖掘的过程中，为了验证模型的优劣，常常需要将现有样本剥离出一部分，作为测试样本，进行模型的优劣验证。这一点也是很多同学忽略的环节。

解决方案：在特征处理后、模型搭建前，将样本一分为二，训练集与测试集比例，一般为8：2或者7：3，依据总样本量的大小而定。

错误8：谨防过拟合风险，导致训练过程效果很好，上线后效果欠佳
过拟合是影响模型预测效果的一个很大因素，也是很多同学会忽略的问题。过拟合指创建的模型，在训练过程中表现很好，但一旦到了预测上，则准确性欠佳。其中，主要由于训练模型过于与训练样本吻合，从而将很多极端点的行为学习其中，影响真实预测效果。这一点在树模型中体现较为直观。

解决方案：可通过交叉验证、缩减特征、控制训练深度、增加正则化等方式进行解决。

欢迎光临永洪社区 (https://club.yonghongtech.com/)