永洪社区

标题: 数据分析"坑"途多,以下让你“跌倒”的常见错误,中招没2 [打印本页]

作者: 喝酸奶不舔盖    时间: 2024-2-27 16:55
标题: 数据分析"坑"途多,以下让你“跌倒”的常见错误,中招没2
本文将接着上篇文章https://club.yonghongtech.com/thread-66011-1-1.html 分享后四种,数据分析思维误区。

一、数据分析环节
错误5:相关性与因果性,傻傻分不清
相关性与因果性这对亲戚,在数据分析日常工作中会经常碰到,并且不只一次的混淆众人。经典案例:冰激凌销量与溺水人数成正比,两者并非有任何因果关系,只是由于天气热这个共同因素,导致销量与溺水数量成同趋势上涨,两者呈现相关关系而已。


解决方案:判断两者是否有相关性,可通过相关系数等方式;判断两者是否有因果性,可通过AB实验等方式。


错误6:追求高端技术,放弃简单方式
这一点,一般是刚入行的同学经常会陷入的误区。解决问题的过程当中,过于追求复杂的技术,重技术本身,轻业务价值,通常体现在以下三个方面上:

解决方案:化繁为简原则,能用简单方式更快、更好解决的,绝不采用复杂方式处理。

二、数据挖掘环节
错误7:做模型过程中,不区分训练集和测试集
在做数据挖掘的过程中,为了验证模型的优劣,常常需要将现有样本剥离出一部分,作为测试样本,进行模型的优劣验证。这一点也是很多同学忽略的环节。


解决方案:在特征处理后、模型搭建前,将样本一分为二,训练集与测试集比例,一般为8:2或者7:3,依据总样本量的大小而定。


错误8:谨防过拟合风险,导致训练过程效果很好,上线后效果欠佳
过拟合是影响模型预测效果的一个很大因素,也是很多同学会忽略的问题。过拟合指创建的模型,在训练过程中表现很好,但一旦到了预测上,则准确性欠佳。其中,主要由于训练模型过于与训练样本吻合,从而将很多极端点的行为学习其中,影响真实预测效果。这一点在树模型中体现较为直观。


解决方案:可通过交叉验证、缩减特征、控制训练深度、增加正则化等方式进行解决。









欢迎光临 永洪社区 (https://club.yonghongtech.com/) Powered by Discuz! X3.4