找文章 / 找答案
分享到

数据分析师干啥活儿

用户分享 2021-9-6 10:42 972人浏览 0人回复
摘要

你以为每天或者至少每周给业务线献计献策,用数据驱动公司发财?增长黑客,寄托于身,稍加挖掘,日活翻翻?数据一甩,指挥作战,产品运营研发老大,统统投以渴望期待的眼光?sql太low,更别说Office,必须上Python + ...

你以为

每天或者至少每周给业务线献计献策,用数据驱动公司发财?

增长黑客,寄托于身,稍加挖掘,日活翻翻?

数据一甩,指挥作战,产品运营研发老大,统统投以渴望期待的眼光?

sql太low,更别说Office,必须上Python + R, 变着法子绘图, 画词云,非此不足以彰显NB

独门绝技Python爬虫,数据从来都是爬爬爬?

实际上

楼上的,too simple, too naive.

我们每天大概率面对场景是这样
  • 产品经理说他上次页面新加的一个按钮,到底有多少人注意啊,用户是不是很喜欢啊,因为花100小时才求着研发哥哥完成的功能
  • 运营妹妹跟你要上次活动到底有多少人访问,多少购买,爱买买买的都是些啥人
  • 老板A这时候,走过来说,昨天收入下降了3%,你从数据上,看看能不能找下原因
  • 老板B正好路过,带了一句,上次广告投放做个专题,给大家分享下,看看效果怎么样

想想,一个公司,PM大概率不会是一个吧,运营也是一大波,领导更是"数不过来",所以各种数据需求涌来。怎么干?下面就开始用你认为很low的sql脚本从数据库里取数据,然后放到Excel透视着还没有美化的黑白曲线图, 想着弄的逼格点交给需求方?不存在的,后面需求大队都排到楼梯口了

你会问,不是有数据平台有BI报表吗?恩,有,但不可能满足所有需求,那也是不现实的,BI里看到的都是常规指标,虽然很重要,但是数据的价值远不能被囊括,且不说有个数据波动,重新从原始数据调研,就说来新的指标或者如果跟其他业务交叉甚至内部不同维度交叉,有时候BI也不能提供,因为BI不可能面面俱到,很多非常规需求,也不可能都加入到BI,即使开发累不死搞定了,维护起来也要累死,BI的用户也会眼花缭乱

你又会问,那不累屎了嘛?

如果是一两个人的数据分析团队,公司规模200人左右的话,确实需求确实如雪花飘,但也是有规律的飘,比如逢年过节,活动促销前后,大概率数据需求是个峰值,等过了这风头,降到波谷。这个时候,终于要休息下了吧?不存在的,小需求少了,但长期的大的数据分析专题,不现在做什么时候做,一般专题类需求,不像其他临时数据支持类需求那么明确,它属于对数据之间相关性价值一种探索,可能半月甚至1个月都不会出有价值的结论,也可能突然一项数据波动挖出重要价值或者发现一个隐藏bug

对于几千人大规模的互联网公司,丰富的产品线和业务线,使得数据驱动也要更精细,这时候数据团队也会大很多,数据分析团队很可能是每个人固定一条产品线或业务线,这样好处是,数据分析师会对一个业务越来越熟悉,发现高价值的数据宝藏概率更高,内部沟通固定需求接口人,也减少沟通成本,整体让数据流动起来更加高效,只要公司的数据流动其他,那么数据的价值才能被更好的释放粗来

你会问,这么流行的Python爬虫,我还没用上,我得用,彰显自己不只活在sq和office里。

好,吭哧吭哧写个爬虫程序,爬爬外部数据?哗哗哗,三盆冷水浇过来,因为大概率是用不到的,一般分析的数据都是来自公司自己产品产生的数据,这些数据或以日志或以结构化表存在数据库里。比如,产品要看ABtest对新用户留存变化,你这时候去爬下招聘网站的的数据?运营想看下上周活动的效果,你去爬下知乎?领导想知道为啥收入下降了,你去爬下水木?都不用,需求对应的数据都在公司内部服务器好好躺着,你最多是跟运维哥哥开个数据权限,就可以拿到,赶紧去挖挖吧

给谁干

对外,你所属业务线的产品经理,运营姐姐的数据需求

对内,你自己或者直属领导要求完成的数据专题分析,此时无需求胜于有需求,因为隐藏的未知需要探索,也更有趣,只是时间需要去挤,不能淹没在临时需求中

怎么干

知乎上, 已经有很多同行前辈的精华文章

我只是简单粗暴的说几点,一般互联网数据分析是怎么干的


1.明确目的

提数需求: 要明确提数的目的, 比如活动效果,新功能使用,ABtest对比

专题分析: 要明确分析的方向, 比如留存分析,沉默分析,新老用户差异

2. 数据准备

熟悉已有业务数据字典,协调新数据埋点收集,并验证准确性

3.数据处理

不同公司数据环境和数据团队配置是不同的, 使用的工具也不同

但是一般来讲, 偏分析数据岗位, 主要数据处理工具还是: SQL(mysql/hive sql) + Excel + shell + 其他

Data Anlysis Tools

4.数据分析的方法

说的直白些, 就是: 细分,对比,找特征,找相关性

至于怎么细分,跟谁对比,用什么模型找相关性,这就需要通过一个个数据分析case喂了。业务能力和数据敏感性,跟思考方式强相关,但更多的还是是经验的慢慢积累

思维是慢慢训练的, 数据敏感性是通过不断的熟悉业务可以培养的

其实, 无论是数据分析, 还是数据挖掘, 还是机器学习, 都是在干相同的事情, 就是寻找数据间的特征和相关性,挖掘数据价值,最终都要服务于业务,只是走的路线不同。

  • 数据分析, 从离线角度, 挖掘数据价值, 方法上是没有限制,是统计模型或是常规数据细分对比,根据需要选取,目的是寻找数据价值
  • 数据挖掘和机器学习, 更偏工程, 数据的价值更体现于在线实时的业务上,如百度搜索排名,信息流个性化推荐


自己最近也录制了一套SQL教程:

教程是自己结合搭建的SQL学习网站(见下面截图)录制的,可以提供给大家边看边动手练习,大家也不用自己搭建数据环境,也有成套的练习数据题目和数据库。

经哥自己写教程,最大的特点就是实用,够用就行,不多浪费大家学习那些无用的长尾功能。

所以,针对不同知识背景的同学,输入不同的学习目标。

我根据大家对数据相关工具的掌握程度,将学SQL的同学划分为三类。

其中,数据相关工具包括: Excel、SQL、Shell、Python等

第一类群体: 数据小白

我定义的数据小白,是这样的:

  • Excel: 基本功能会用,对数据有点概念, 比如:
  • 能对某列进行排序、筛选
  • 能对某列求和、求平均值
  • 知道透视表,但不熟,比如:
  • 会选中表格内容生成透视表
  • 不懂行、列、值如何拖拽满足统计要求
  • SQL\Shell\Python: 完全没接触过
  • 学习目标: 能看的懂SQL,并能简单使用SQL统计数据

我希望小白同学,学习课程的下面模块:

  • 第一部分: SQL的应用场景
  • 考核目标一: 什么是SQL?
  • 考核目标二: SQL能干哪些事儿?
  • 考核目标三: 互联网最常用数据库,说两种。
  • 第二部分: SQL的基础语法
  • 考核目标一: 用SQL来实现Excel的基础功能: 排序、筛选、去重
  • 考核目标二: 用SQL来实现Excel的汇聚功能: 求和、求平均、求最大/最小值
  • 考核目标三: 给出一个复杂SQL脚本模板,并能简单修改完成统计

第二类群体: 表哥表姐

我定义的表哥表姐:

  • 每天用Excel完成各种统计分析,对Excel下面数据功能极精通
  • 基础功能: 列排序、筛选、去重、求和、求平均
  • 高级功能: 透视表行列值汇总、占比汇总、过滤、排序
  • 常用函数:
  • 数值函数: SUM\AVG\MAX\MIN\FLOOR\COUNT
  • 逻辑函数: IF\IFERROR
  • 字符函数: LEFT\RIGHT\MID\CONCATENATE\VALUE
  • 时间函数: YEAR\MONTH\DAY\DATE
  • 高级函数: VLOOKUP
  • SQL: 了解过,知道是干啥用的,甚至搜过相关文章,因为没数据库环境,一直没动手练过
  • Shell\Python: 完全没接触过,以后也不准备投入时间学习
  • 学习SQL目的: 以Excel+业务为主,SQL作为辅助工具,希望能从数据库提取和统计数据,然后导入Excel继续做表格

我希望表哥表姐,重点学习下面模块, 考核深度增加:

  • 第二部分: SQL的基础语法(新增考核点已标黄)
  • 考核目标一: 用SQL来实现Excel的基础功能: 排序、筛选、去重
  • 考核目标二: 用SQL来实现Excel的汇聚功能: 求和、求平均、求最大/最小值
  • 考核目标三: 给出一个复杂SQL脚本模板,并能简单修改完成统计
  • 考核目标四: 举例常见错误写法,可根据运行错误提示,能找到原因并修改
  • 第三部分: SQL的多表关联
  • 考核目标一: 理解表关联的背景知识点,笛卡尔积,并举例说明
  • 考核目标二: 理解left join/right join/full区别
  • 考核目标三: 独自完成两表关联查询的测试题

第三类群体: 准数据民工

我定义的准数据民工:

  • 希望做数据工作,还没有实战经历,正在摸索搭建数据环境,学习数据的工具和语言。
  • SQL已完成一定基础语法学习
  • SQL/Shell/Python都刚刚开始接触学习
  • Excel用的不太多,不太熟悉
  • 只会基础排序、筛选的使用,透视和高级函数很少
  • 缺少业务场景的数据需求,不知道工具怎么服务于业务分析
  • 学习目标: 了解SQL高级且常用的场景,学会拆解业务需求为SQL脚本

我希望准数据民工,重点学习下面模块:

  • 第二部分: SQL的基础语法
  • 跳转到第二部分测试题目部分,如果能轻松作答,则可以跳过基础语法阶段
  • 第三部分: SQL的多表关联(加深考核点已标黄)
  • 考核目标一: 理解表关联的背景知识点,笛卡尔积,并举例说明
  • 考核目标二: 理解left join/right join/full区别
  • 考核目标三: 能独立完成三张甚至更多表的关联查询
  • 第四部分: 高级函数用法
  • 考核目标一: 日期转换、加减测试题
  • 考核目标二: hive sql分组排序函数row_number
  • 考核目标三: hive sql字符串聚合函数concat_ws\group_concat
  • 考核目标四: hive sql的json格式解析
  • 第五部分: 如何将业务需求拆解为SQL脚本
  • 考核目标一: 需求沟通,明确数据需求是否合理,是否能做
  • 考核目标二: 将需求拆解到业务表中,并列出待统计的数据指标
本文暂无评论,快来抢沙发!

数据分析
热门问答
  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |《永洪社区协议》
返回顶部