永洪社区
标题: 数据分析sop之数据处理与分析阶段(三) [打印本页]
作者: 天问台 时间: 2022-4-28 10:37
标题: 数据分析sop之数据处理与分析阶段(三)
本帖最后由 szhpq 于 2022-4-28 10:39 编辑
本文针对性的讲讲数据分析整个流程最关键的阶段: 数据处理与分析阶段。该阶段我分成了三块:数据采集、数据处理、数据分析。
因为数据采集、处理、分析都围绕着“数据”进行,对海量或杂乱数据进行处理分析,从中找出痛点,洞察问题。
01
数据采集
该处的数据采集指的是获取分析所需要的数据,一般可以从内部数据、外部数据两个方向获取。
1. 内部数据
直接获取的前提是,公司进行了数据仓库的建设,已为决策分析提供了所有类型数据支持。该部分内容在之前的文章中也提到过,但是在这里更加细化的做了点补充。
直接获取就是指数据库中有现成的表可以直接获取到所需的数据,不需要分析师再在sql上做复杂的处理。
公司一般会将数据分为ods、dwd、dwb/dws层数据。
① ods层:明细数据。数仓不做任何数据处理,直接原封不动的将数据同步到该库上。为dw层的数据加工作准备。
②dwd层:明细数据。该层数据已在ods层上对数据做了清洗操作,比如去除空值、脏数据等。
③dwb/dws层:聚合数据。主要对ods/dwd层的数据做些轻度汇总,会涉及较多业务指标数据。如根据ods/dwd层的明细数据计算出七日复购率、周同期对比数据、毛利率等指标供分析师直接查询使用。
一般情况下,分析可以直接从dwb/dws层调取现成的指标数据进行分析,特殊情况下也可以从dwd层写复杂sql的方式计算成所需的数据。
前提是dwb/dws层没有现成的数据可以直接获取,哪怕自己写代码可以从dwd层获取,也需要写很复杂的代码。此时,请数仓协助落成聚合表再去调取数据。
重新落表一般会涉及人力资源的协调,需求的沟通。分析师担当业务方和数仓之间的桥梁,将业务方的需求理清楚之后,自身又作为数仓的需求方对数仓提需求。
2. 外部数据
当分析的内容内部数据无法满足时,或者不够全面时,此时需要借助于外部数据来辅助分析。
比如艾瑞网、极光大数据、阿里研究所、199IT互联网数据中心等都会时不时的发一些行业分析报告。整个行业的数据公司内部是无法获取的,所以可以从一些行业分析报告入手。
比如我们需要获取用户的一些①主观想法:喜欢我们产品的原因是?我们产品最吸引您的点是?您觉得我们产品最应该改进的点是?②对竞品的行为:您在xx场景下更愿意使用A产品、B产品还是C产品③用户习惯的场景:您在什么场景下更愿意使用xx产品?等
通过问卷数据获取一些产品中无法获得的数据,辅助分析。
有时候我们分析的某个指标有时候也会受到宏观政策的影响,比如宏观上某项指标上调了xx,对我们的业务会产生怎样的影响。
02
数据处理
对分析师而言,这步需要分析师将数据根据脑中的分析框架处理成所需要的数据。
1. 处理内容
会涉及数据异常值处理、缺失值处理、数据转换、数据聚合、数据分组归类以及数据准确性的校验,为下一步的数据分析奠定好基础。
井井有条的数据更有利于分析:
2. 数据验证
数据采集到之后,还要做好数据验证,目的是确保数据准确性,切忌拿到数据立马动手分析。
从验证人员来看:
从验证方式来看:
031
数据分析
数据分析方法很多,网上有很多资料,这里就讲一下其中比较常用的几种分析方法。
1. 漏斗分析
漏斗分析是数据分析中比较常见的分析模型。采取漏斗的方式直观的表示业务从起点到终点的各个环节的转化情况,以便找出有问题的环节,针对性的优化。
如下图,展示了用户支付场景的转化率:用户从打开app到完成支付的过程。分为进入首页→进入商详页→加入购物车→提交订单→支付完成,直观分析每个重要环节的转化率。以最直观最简单的方式反映出每个关键环节的转化率,洞察主要问题所在。