1.背景因为之前知乎的回答,超级菜鸟怎么学习数据分析?,很多朋友咨询数据分析入门的书籍,这里简单整理了下。 关于入行数分,2021年新回答,覆盖更全面,如何快速成为数据分析师?建议收藏。 2.导读- 阅读对象: 入门或转行数据分析的小白
- 阅读时间: 5分钟
3.数据分析入门资料方法、思维- 《谁说菜鸟不会数据分析》系列,算是大白话了,通俗易懂,并且也实例讲解了数据分析一些常用方法
- 《数据挖掘与数据化运营实战: 思路、方法、技巧与应用》卢辉,这本书将了常用的挖掘方法,比如聚类,主成分分析,因子分析,关联规则等,同时还列举了很多阿里实战案例,我转行的时候买的,没有公式,后面入行后才感觉,作者写的真好,都是实践后的干货总结
- 数据分析和拆解MECE,这个肯定要看麦肯锡资深顾问,巴巴拉·明托的金字塔原理,它是一项层次性、结构化的思考、沟通技术,可以用于结构化的说话与写作过程。
Excel- 貌似自己没有专门读一本Excel书籍, 都是遇到问题网上查询
- 如果不是特别充足的时间,也不建议买一厚本书啃,除非这本书你能花1-2天读完,而且干货较多
- 我暂时整理下数据分析师常用的一部分功能,放到Excel极简入门文件, 提取码:zkrx, 可以下载下来花10分钟,快速了解下,以后遇到新的需求你再google即可(我用的是Linux系统,不能安装MS Office,所以暂时用WPS Office代替,大同小异, 实际上我最近两年很少用Windows了)
SQL- W3school SQL 教程(数据分析主要学习select即可, 其他简单看下即可,没时间就不看,以后用到再学)
- 李天生SQL Server2008教程(讲得特别接地气, 2-3分钟一个case, 同样建议select部分要精通,其他看自己情况)
- 以上感觉了解基本语法足够了,要真正精通sql,还是需要大量的实践
- 书籍:《Mysql数据库从入门到精通》,粗粗看过这本,对数据分析师来说,可能仅小部分会用上,毕竟讲得是Mysql所有的操作包括权限控制,事务处理,这些一般后端开发或者DBA才会用到,所以感觉也可以不读
- 针对小白同学,这里重点说明下: sql是一种语言, 它用来和数据库进行交互,进行操作数据的增删改查,而数据库是有多种的,比如mysql, oracle, sql server, hive等,每种数据库适配的sql语言基本相同,所以在学习的时候,选择其中一种数据库进行操作学习即可,mysql是目前也是互联网采用最广泛的数据库,oracle/sql server银行等传统企业用的比较多,而hive是集成在分布式文件系统hadoop之上的数据库,俗称"大数据",主要用来存储用户访问的行为日志。我们学习sql这个语言语法的话,选择mysql进行学习即可,其他大同小异
自己最近也录制了一套SQL教程: 教程是自己结合搭建的SQL学习网站录制的,所以可以边看边动手练习,大家也不用自己搭建数据环境,也有成套的练习数据题目和数据库。 经哥自己写教程,最大的特点就是实用,够用就行,不多浪费大家学习那些无用的长尾功能。 所以,针对不同知识背景的同学,输入不同的学习目标。 我根据大家对数据相关工具的掌握程度,将学SQL的同学划分为三类。 其中,数据相关工具包括: Excel、SQL、Shell、Python等 第一类群体: 数据小白我定义的数据小白,是这样的: - Excel: 基本功能会用,对数据有点概念, 比如:
- 能对某列进行排序、筛选
- 能对某列求和、求平均值
- 知道透视表,但不熟,比如:
- 会选中表格内容生成透视表
- 不懂行、列、值如何拖拽满足统计要求
- SQL\Shell\Python: 完全没接触过
- 学习目标: 能看的懂SQL,并能简单使用SQL统计数据
我希望小白同学,学习课程的下面模块: - 第一部分: SQL的应用场景
- 考核目标一: 什么是SQL?
- 考核目标二: SQL能干哪些事儿?
- 考核目标三: 互联网最常用数据库,说两种。
- 第二部分: SQL的基础语法
- 考核目标一: 用SQL来实现Excel的基础功能: 排序、筛选、去重
- 考核目标二: 用SQL来实现Excel的汇聚功能: 求和、求平均、求最大/最小值
- 考核目标三: 给出一个复杂SQL脚本模板,并能简单修改完成统计
第二类群体: 表哥表姐我定义的表哥表姐: - 每天用Excel完成各种统计分析,对Excel下面数据功能极精通
- 基础功能: 列排序、筛选、去重、求和、求平均
- 高级功能: 透视表行列值汇总、占比汇总、过滤、排序
- 常用函数:
- 数值函数: SUM\AVG\MAX\MIN\FLOOR\COUNT
- 逻辑函数: IF\IFERROR
- 字符函数: LEFT\RIGHT\MID\CONCATENATE\VALUE
- 时间函数: YEAR\MONTH\DAY\DATE
- 高级函数: VLOOKUP
- SQL: 了解过,知道是干啥用的,甚至搜过相关文章,因为没数据库环境,一直没动手练过
- Shell\Python: 完全没接触过,以后也不准备投入时间学习
- 学习SQL目的: 以Excel+业务为主,SQL作为辅助工具,希望能从数据库提取和统计数据,然后导入Excel继续做表格
我希望表哥表姐,重点学习下面模块, 考核深度增加: - 第二部分: SQL的基础语法(新增考核点已标黄)
- 考核目标一: 用SQL来实现Excel的基础功能: 排序、筛选、去重
- 考核目标二: 用SQL来实现Excel的汇聚功能: 求和、求平均、求最大/最小值
- 考核目标三: 给出一个复杂SQL脚本模板,并能简单修改完成统计
- 考核目标四: 举例常见错误写法,可根据运行错误提示,能找到原因并修改
- 第三部分: SQL的多表关联
- 考核目标一: 理解表关联的背景知识点,笛卡尔积,并举例说明
- 考核目标二: 理解left join/right join/full区别
- 考核目标三: 独自完成两表关联查询的测试题
第三类群体: 准数据民工我定义的准数据民工: - 希望做数据工作,还没有实战经历,正在摸索搭建数据环境,学习数据的工具和语言。
- SQL已完成一定基础语法学习
- SQL/Shell/Python都刚刚开始接触学习
- Excel用的不太多,不太熟悉
- 只会基础排序、筛选的使用,透视和高级函数很少
- 缺少业务场景的数据需求,不知道工具怎么服务于业务分析
- 学习目标: 了解SQL高级且常用的场景,学会拆解业务需求为SQL脚本
我希望准数据民工,重点学习下面模块: - 第二部分: SQL的基础语法
- 跳转到第二部分测试题目部分,如果能轻松作答,则可以跳过基础语法阶段
- 第三部分: SQL的多表关联(加深考核点已标黄)
- 考核目标一: 理解表关联的背景知识点,笛卡尔积,并举例说明
- 考核目标二: 理解left join/right join/full区别
- 考核目标三: 能独立完成三张甚至更多表的关联查询
- 第四部分: 高级函数用法
- 考核目标一: 日期转换、加减测试题
- 考核目标二: hive sql分组排序函数row_number
- 考核目标三: hive sql字符串聚合函数concat_ws\group_concat
- 考核目标四: hive sql的json格式解析
- 第五部分: 如何将业务需求拆解为SQL脚本
- 考核目标一: 需求沟通,明确数据需求是否合理,是否能做
- 考核目标二: 将需求拆解到业务表中,并列出待统计的数据指标
感兴趣可以了解下:
Shell- 数据分析师,对于shell命令的了解,仅限于基本命令的使用和数据的处理,对于shell的开发不做特别要求,具体看个人兴趣和时间成本则需投入
- 鸟哥的Linux私房菜,当然也有对于的书,价格比较贵,不过物有所值,书本是对整个Linux系统介绍,比较全面,这本书不是专门为数据分析师准备的,很大开发和运维都会读这本书,如果只是数据分析使用,完全没必要全读,主要读shell部分就可以了
- 上面书也可以不买,直接网上了解常用shell命令也可以了,尤其对于文科生转化做数据分析,我感觉除非兴趣,完全么有必要了解太深入,我们学习的目的毕竟是使用
Python- 廖雪峰Python教程,Python语言语法的入门, 这个绝对是经典了, 通俗易懂,对于数据分析师,尤其是刚入门的小白,只读到该教程的"面向对象高级编程"以前即可
- Python数据分析第三方
- 数据分析: pandas, numpy
- 绘图包: matplotlib, seaborn
- 机器学习: sklearn, tensorflow等
- 书籍:
- 《利用Python进行数据分析》, 主要介绍如何用pandas进行数据分析,也会讲到numpy,以及matplotlib和pandas绘图, 这本书确实写的很好,但是小白上来阅读可能会一头水雾,所以可以退而求其次,
|
0