永洪社区

标题: 写给数据分析小白：一种通用的数据思维 [打印本页]

作者: puffs 时间: 2024-2-27 15:16
标题: 写给数据分析小白：一种通用的数据思维
Why-What-How”在讲解概念和执行上是个不错的思维模型，本文依例按此框架来拆分数据分析。很多小白可能还没有数据分析的思路，这里权且从个人的角度进行梳理，以资参考。

一、WHY：为什么要做数据分析
个人的理解，数据分析是为了能以量化的方式来分析业务问题并得出结论，其中有两个重点词语：量化和业务。
量化是为了统一认知，并且确保路径可回溯，可复制。除「量化」之外，另外一个重点词语是「业务」。只有解决业务问题分析才能创造价值，价值包括个人价值和公司价值。
那么，如何站在业务方的角度思考问题呢，总结起来就是八个字「忧其所虑，给其所欲」：

沟通充分
结论简明
提供信息量及可落地建议
寻求反馈

在沟通上，确定业务方想要分析什么，提出更合理专业的衡量和分析方式，同时做好节点同步，切忌一条路走到黑。举例来讲，业务方说要看页面停留时长，但他实际想要的，可能是想衡量用户质量，那么留存率、目标转化率才是更合适的指标。
在阐述分析结果上，要记得结论先行，逐层讲解，再提供论据。因为业务方或管理层时间都是有限的，洋洋洒洒一大篇邮件，未看先晕，谁都没心思看你到底分析了啥。
在提供信息量及可落地建议上，先要明白什么叫信息量：提供了对方不知道的信息。太阳明天从东方升起不算信息量，从西方升起才是。

二、WHAT：什么是数据分析
数据分析的本质是抓住变与不变。“变”是数据分析的基础，如果一个业务每天订单是 10000 单，或者每天都是以 10% 的速度稳步增长，那就没有分析的必要了。而若想抓住变，得先形成“不变”的意识。
因此，我建议新手要形成习惯，每天上班第一时间查看数据：实时&日周月报；记录关键数据（榜单&报告）

在“不变”的基础上，便能逐渐培养出指标敏感性，即意识指标偏离的能力。这主要是通过各种日环比，周月同比的监控以及日常的好奇心来保持。我们从一个 Questmobile 榜单上，来简单看下「指标偏离」是怎么应用到日常的分析上的：
这里先跟大家分享下怎么看这种榜单：

看整体排行：看哪些 APP 排在前方是出乎你意料之外的
分行业看排行：看行业里排行及其变动
看增长率：哪些 APP 增长比较快
看使用时长等其他指标

三、HOW：怎么进行数据分析
任何数据分析都是“细分，对比，溯源”这三种行为的不断交叉。最常见的细分对比维度是时间，我们通过时间进行周月同比，发现数据异常后，再进行维度或流程上的细分，一步步拆解找到问题所在。

1、细分
在细分方式上，主要有以下三种方式

横切：根据某个维度对指标进行切分及交叉分析
纵切：以时间变化为轴，切分指标上下游
内切：根据某个模型从目标内部进行划分

横切
横切上，我们对维度和指标做做了分类和交叉，当某一类的指标出现问题时，我们便知道该从什么维度进行分析。在进行横切分析时，经常需要多个维度交叉着使用。

纵切
纵切上，有目的有路径，则用漏斗分析。无目的有路径，则用轨迹分析。无目的无路径，则用日志分析。

内切
内切上，主要是根据现有市面上常见的分析模型，RFM，Cohort 和 Segment等方式进行分析。RFM 即最近购买时间，频率及金额三个指标综合来判定用户忠诚度及粘性。

2、对比

对比主要分为以下几种：

横切对比：根据细分中的横切维度进行对比，如城市和品类
纵切对比：与细分中的纵切维护进行对比，如漏斗不同阶段的转化率
目标对比：常见于目标管理，如完成率等
时间对比：日环比，周月同比；7天滑动平均值对比，7天内极值对比

3、溯源

经过反复的细分对比后，基本可以确认问题所在了。这时候就需要和业务方确认是否因为某些业务动作导致的数据异常，包括新版本上线，或者活动策略优化等等。
如果仍然没有头绪，那么只能从最细颗粒度查起了，如用户日志分析、用户访谈、外在环境了解，如外部活动，政策经济条件变化等等

4 、衍生模型
在「细分对比」的基础上，可以衍生出来很多模型。这些模型的意义是能够帮你快速判断一个事情的关键要素，并做到不重不漏。这里列举几个以供参考：
Why-How-What
5W1H
5Why
4P模型（产品，价格，渠道，宣传）
SWOT 模型（优势，劣势，机会，威胁）
PEST 模型（政治，经济，社会，科技）
波士顿矩阵

四、How：数据分析如何落地

以上讲的都偏「道术技」中的「术」部分，下面则通过汇总以上内容，和实际工作进行结合，落地成「技」部分。

1、数据分析流程和场景
根据不同的流程和场景，会有些不同的注意点和「术」的结合

2、数据分析常见谬误

控制变量谬误：在做 A/B 测试时没有控制好变量，导致测试结果不能反映实验结果。或者在进行数据对比时，两个指标没有可比性。

样本谬误：在做抽样分析时，选取的样本不够随机或不够有代表性。举例来讲，互联网圈的人会发现身边的人几乎不用「今日头条」，为什么这 APP 还能有这么大浏览量？

定义谬误：在看某些报告或者公开数据时，经常会有人鱼目混珠。「网站访问量过亿」，是指的访问用户数还是访问页面数？

比率谬误：比率型或比例型的指标出现的谬误以至于可以单独拎出来将。一个是每次谈论此类型指标时，都需要明确分子和分母是什么。

因果相关谬误：会误把相关当因果，忽略中介变量。比如，有人发现雪糕的销量和河溪溺死的儿童数量呈明显相关，就下令削减雪糕销量。其实可能只是因为这两者都是发生在天气炎热的夏天。

辛普森悖论：简单来说，就是在两个相差较多的分组数据相加时，在分组比较中都占优势的一方，会在总评中反而是失势的一方。

总结
数据准确性是第一位的，站在业务方的角度思考问题：忧其所虑，予其所欲，定义「变」与「不变」，细分，对比，溯源。

作者: zyj20230601 时间: 2024-3-1 09:59
数据准确性是第一位的，站在业务方的角度思考问题：忧其所虑，予其所欲，定义「变」与「不变」，细分，对比，溯源。

欢迎光临永洪社区 (https://club.yonghongtech.com/)