你以为每天或者至少每周给业务线献计献策,用数据驱动公司发财?增长黑客,寄托于身,稍加挖掘,日活翻翻?数据一甩,指挥作战,产品运营研发老大,统统投以渴望期待的眼光?sql太low,更别说Office,必须上Python + ...
你以为每天或者至少每周给业务线献计献策,用数据驱动公司发财? 增长黑客,寄托于身,稍加挖掘,日活翻翻? 数据一甩,指挥作战,产品运营研发老大,统统投以渴望期待的眼光? sql太low,更别说Office,必须上Python + R, 变着法子绘图, 画词云,非此不足以彰显NB 独门绝技Python爬虫,数据从来都是爬爬爬? 实际上楼上的,too simple, too naive. 我们每天大概率面对场景是这样
想想,一个公司,PM大概率不会是一个吧,运营也是一大波,领导更是"数不过来",所以各种数据需求涌来。怎么干?下面就开始用你认为很low的sql脚本从数据库里取数据,然后放到Excel透视着还没有美化的黑白曲线图, 想着弄的逼格点交给需求方?不存在的,后面需求大队都排到楼梯口了 你会问,不是有数据平台有BI报表吗?恩,有,但不可能满足所有需求,那也是不现实的,BI里看到的都是常规指标,虽然很重要,但是数据的价值远不能被囊括,且不说有个数据波动,重新从原始数据调研,就说来新的指标或者如果跟其他业务交叉甚至内部不同维度交叉,有时候BI也不能提供,因为BI不可能面面俱到,很多非常规需求,也不可能都加入到BI,即使开发累不死搞定了,维护起来也要累死,BI的用户也会眼花缭乱 你又会问,那不累屎了嘛? 如果是一两个人的数据分析团队,公司规模200人左右的话,确实需求确实如雪花飘,但也是有规律的飘,比如逢年过节,活动促销前后,大概率数据需求是个峰值,等过了这风头,降到波谷。这个时候,终于要休息下了吧?不存在的,小需求少了,但长期的大的数据分析专题,不现在做什么时候做,一般专题类需求,不像其他临时数据支持类需求那么明确,它属于对数据之间相关性价值一种探索,可能半月甚至1个月都不会出有价值的结论,也可能突然一项数据波动挖出重要价值或者发现一个隐藏bug 对于几千人大规模的互联网公司,丰富的产品线和业务线,使得数据驱动也要更精细,这时候数据团队也会大很多,数据分析团队很可能是每个人固定一条产品线或业务线,这样好处是,数据分析师会对一个业务越来越熟悉,发现高价值的数据宝藏概率更高,内部沟通固定需求接口人,也减少沟通成本,整体让数据流动起来更加高效,只要公司的数据流动其他,那么数据的价值才能被更好的释放粗来 你会问,这么流行的Python爬虫,我还没用上,我得用,彰显自己不只活在sq和office里。 好,吭哧吭哧写个爬虫程序,爬爬外部数据?哗哗哗,三盆冷水浇过来,因为大概率是用不到的,一般分析的数据都是来自公司自己产品产生的数据,这些数据或以日志或以结构化表存在数据库里。比如,产品要看ABtest对新用户留存变化,你这时候去爬下招聘网站的的数据?运营想看下上周活动的效果,你去爬下知乎?领导想知道为啥收入下降了,你去爬下水木?都不用,需求对应的数据都在公司内部服务器好好躺着,你最多是跟运维哥哥开个数据权限,就可以拿到,赶紧去挖挖吧 给谁干对外,你所属业务线的产品经理,运营姐姐的数据需求 对内,你自己或者直属领导要求完成的数据专题分析,此时无需求胜于有需求,因为隐藏的未知需要探索,也更有趣,只是时间需要去挤,不能淹没在临时需求中 怎么干知乎上, 已经有很多同行前辈的精华文章 我只是简单粗暴的说几点,一般互联网数据分析是怎么干的 1.明确目的 提数需求: 要明确提数的目的, 比如活动效果,新功能使用,ABtest对比 专题分析: 要明确分析的方向, 比如留存分析,沉默分析,新老用户差异 2. 数据准备 熟悉已有业务数据字典,协调新数据埋点收集,并验证准确性 3.数据处理 不同公司数据环境和数据团队配置是不同的, 使用的工具也不同 但是一般来讲, 偏分析数据岗位, 主要数据处理工具还是: SQL(mysql/hive sql) + Excel + shell + 其他 4.数据分析的方法 说的直白些, 就是: 细分,对比,找特征,找相关性 至于怎么细分,跟谁对比,用什么模型找相关性,这就需要通过一个个数据分析case喂了。业务能力和数据敏感性,跟思考方式强相关,但更多的还是是经验的慢慢积累 思维是慢慢训练的, 数据敏感性是通过不断的熟悉业务可以培养的 其实, 无论是数据分析, 还是数据挖掘, 还是机器学习, 都是在干相同的事情, 就是寻找数据间的特征和相关性,挖掘数据价值,最终都要服务于业务,只是走的路线不同。
自己最近也录制了一套SQL教程: 教程是自己结合搭建的SQL学习网站(见下面截图)录制的,可以提供给大家边看边动手练习,大家也不用自己搭建数据环境,也有成套的练习数据题目和数据库。 经哥自己写教程,最大的特点就是实用,够用就行,不多浪费大家学习那些无用的长尾功能。 所以,针对不同知识背景的同学,输入不同的学习目标。 我根据大家对数据相关工具的掌握程度,将学SQL的同学划分为三类。 其中,数据相关工具包括: Excel、SQL、Shell、Python等 第一类群体: 数据小白我定义的数据小白,是这样的:
我希望小白同学,学习课程的下面模块:
第二类群体: 表哥表姐我定义的表哥表姐:
我希望表哥表姐,重点学习下面模块, 考核深度增加:
第三类群体: 准数据民工我定义的准数据民工:
我希望准数据民工,重点学习下面模块:
|
2024-02-29
2024-01-22
2024-01-03
2023-12-27
2023-12-08
回答
回答
回答
回答
回答
0