找文章 / 找答案
分享到

数据分析师的极简入门书籍

用户分享 2021-9-6 10:45 1669人浏览 0人回复
摘要

1.背景因为之前知乎的回答,超级菜鸟怎么学习数据分析?,很多朋友咨询数据分析入门的书籍,这里简单整理了下。关于入行数分,2021年新回答,覆盖更全面,如何快速成为数据分析师?建议收藏。2.导读阅读对象: 入门或 ...

1.背景

因为之前知乎的回答,超级菜鸟怎么学习数据分析?,很多朋友咨询数据分析入门的书籍,这里简单整理了下。

关于入行数分,2021年新回答,覆盖更全面,如何快速成为数据分析师?建议收藏。

2.导读

  • 阅读对象: 入门或转行数据分析的小白
  • 阅读时间: 5分钟

3.数据分析入门资料

方法、思维

  • 《谁说菜鸟不会数据分析》系列,算是大白话了,通俗易懂,并且也实例讲解了数据分析一些常用方法
  • 《数据挖掘与数据化运营实战: 思路、方法、技巧与应用》卢辉,这本书将了常用的挖掘方法,比如聚类,主成分分析,因子分析,关联规则等,同时还列举了很多阿里实战案例,我转行的时候买的,没有公式,后面入行后才感觉,作者写的真好,都是实践后的干货总结
  • 数据分析和拆解MECE,这个肯定要看麦肯锡资深顾问,巴巴拉·明托的金字塔原理,它是一项层次性、结构化的思考、沟通技术,可以用于结构化的说话与写作过程。

Excel

  • 貌似自己没有专门读一本Excel书籍, 都是遇到问题网上查询
  • 如果不是特别充足的时间,也不建议买一厚本书啃,除非这本书你能花1-2天读完,而且干货较多
  • 我暂时整理下数据分析师常用的一部分功能,放到Excel极简入门文件, 提取码:zkrx, 可以下载下来花10分钟,快速了解下,以后遇到新的需求你再google即可(我用的是Linux系统,不能安装MS Office,所以暂时用WPS Office代替,大同小异, 实际上我最近两年很少用Windows了)

SQL

  • W3school SQL 教程(数据分析主要学习select即可, 其他简单看下即可,没时间就不看,以后用到再学)
  • 李天生SQL Server2008教程(讲得特别接地气, 2-3分钟一个case, 同样建议select部分要精通,其他看自己情况)
  • 以上感觉了解基本语法足够了,要真正精通sql,还是需要大量的实践
  • 书籍:《Mysql数据库从入门到精通》,粗粗看过这本,对数据分析师来说,可能仅小部分会用上,毕竟讲得是Mysql所有的操作包括权限控制,事务处理,这些一般后端开发或者DBA才会用到,所以感觉也可以不读
  • 针对小白同学,这里重点说明下: sql是一种语言, 它用来和数据库进行交互,进行操作数据的增删改查,而数据库是有多种的,比如mysql, oracle, sql server, hive等,每种数据库适配的sql语言基本相同,所以在学习的时候,选择其中一种数据库进行操作学习即可,mysql是目前也是互联网采用最广泛的数据库,oracle/sql server银行等传统企业用的比较多,而hive是集成在分布式文件系统hadoop之上的数据库,俗称"大数据",主要用来存储用户访问的行为日志。我们学习sql这个语言语法的话,选择mysql进行学习即可,其他大同小异
自己最近也录制了一套SQL教程:

教程是自己结合搭建的SQL学习网站录制的,所以可以边看边动手练习,大家也不用自己搭建数据环境,也有成套的练习数据题目和数据库。

经哥自己写教程,最大的特点就是实用,够用就行,不多浪费大家学习那些无用的长尾功能。

所以,针对不同知识背景的同学,输入不同的学习目标。

我根据大家对数据相关工具的掌握程度,将学SQL的同学划分为三类。

其中,数据相关工具包括: Excel、SQL、Shell、Python等

第一类群体: 数据小白

我定义的数据小白,是这样的:

  • Excel: 基本功能会用,对数据有点概念, 比如:
    • 能对某列进行排序、筛选
    • 能对某列求和、求平均值
    • 知道透视表,但不熟,比如:
      • 会选中表格内容生成透视表
      • 不懂行、列、值如何拖拽满足统计要求
  • SQL\Shell\Python: 完全没接触过
  • 学习目标: 能看的懂SQL,并能简单使用SQL统计数据

我希望小白同学,学习课程的下面模块:

  • 第一部分: SQL的应用场景
    • 考核目标一: 什么是SQL?
    • 考核目标二: SQL能干哪些事儿?
    • 考核目标三: 互联网最常用数据库,说两种。
  • 第二部分: SQL的基础语法
    • 考核目标一: 用SQL来实现Excel的基础功能: 排序、筛选、去重
    • 考核目标二: 用SQL来实现Excel的汇聚功能: 求和、求平均、求最大/最小值
    • 考核目标三: 给出一个复杂SQL脚本模板,并能简单修改完成统计

第二类群体: 表哥表姐

我定义的表哥表姐:

  • 每天用Excel完成各种统计分析,对Excel下面数据功能极精通
    • 基础功能: 列排序、筛选、去重、求和、求平均
    • 高级功能: 透视表行列值汇总、占比汇总、过滤、排序
    • 常用函数:
      • 数值函数: SUM\AVG\MAX\MIN\FLOOR\COUNT
      • 逻辑函数: IF\IFERROR
      • 字符函数: LEFT\RIGHT\MID\CONCATENATE\VALUE
      • 时间函数: YEAR\MONTH\DAY\DATE
    • 高级函数: VLOOKUP
  • SQL: 了解过,知道是干啥用的,甚至搜过相关文章,因为没数据库环境,一直没动手练过
  • Shell\Python: 完全没接触过,以后也不准备投入时间学习
  • 学习SQL目的: 以Excel+业务为主,SQL作为辅助工具,希望能从数据库提取和统计数据,然后导入Excel继续做表格

我希望表哥表姐,重点学习下面模块, 考核深度增加:

  • 第二部分: SQL的基础语法(新增考核点已标黄)
    • 考核目标一: 用SQL来实现Excel的基础功能: 排序、筛选、去重
    • 考核目标二: 用SQL来实现Excel的汇聚功能: 求和、求平均、求最大/最小值
    • 考核目标三: 给出一个复杂SQL脚本模板,并能简单修改完成统计
    • 考核目标四: 举例常见错误写法,可根据运行错误提示,能找到原因并修改
  • 第三部分: SQL的多表关联
    • 考核目标一: 理解表关联的背景知识点,笛卡尔积,并举例说明
    • 考核目标二: 理解left join/right join/full区别
    • 考核目标三: 独自完成两表关联查询的测试题

第三类群体: 准数据民工

我定义的准数据民工:

  • 希望做数据工作,还没有实战经历,正在摸索搭建数据环境,学习数据的工具和语言。
    • SQL已完成一定基础语法学习
    • SQL/Shell/Python都刚刚开始接触学习
  • Excel用的不太多,不太熟悉
    • 只会基础排序、筛选的使用,透视和高级函数很少
    • 缺少业务场景的数据需求,不知道工具怎么服务于业务分析
  • 学习目标: 了解SQL高级且常用的场景,学会拆解业务需求为SQL脚本

我希望准数据民工,重点学习下面模块:

  • 第二部分: SQL的基础语法
    • 跳转到第二部分测试题目部分,如果能轻松作答,则可以跳过基础语法阶段
  • 第三部分: SQL的多表关联(加深考核点已标黄)
    • 考核目标一: 理解表关联的背景知识点,笛卡尔积,并举例说明
    • 考核目标二: 理解left join/right join/full区别
    • 考核目标三: 能独立完成三张甚至更多表的关联查询
  • 第四部分: 高级函数用法
    • 考核目标一: 日期转换、加减测试题
    • 考核目标二: hive sql分组排序函数row_number
    • 考核目标三: hive sql字符串聚合函数concat_ws\group_concat
    • 考核目标四: hive sql的json格式解析
  • 第五部分: 如何将业务需求拆解为SQL脚本
    • 考核目标一: 需求沟通,明确数据需求是否合理,是否能做
    • 考核目标二: 将需求拆解到业务表中,并列出待统计的数据指标

感兴趣可以了解下:


Shell

  • 数据分析师,对于shell命令的了解,仅限于基本命令的使用和数据的处理,对于shell的开发不做特别要求,具体看个人兴趣和时间成本则需投入
  • 鸟哥的Linux私房菜,当然也有对于的书,价格比较贵,不过物有所值,书本是对整个Linux系统介绍,比较全面,这本书不是专门为数据分析师准备的,很大开发和运维都会读这本书,如果只是数据分析使用,完全没必要全读,主要读shell部分就可以了
  • 上面书也可以不买,直接网上了解常用shell命令也可以了,尤其对于文科生转化做数据分析,我感觉除非兴趣,完全么有必要了解太深入,我们学习的目的毕竟是使用

Python

  • 廖雪峰Python教程,Python语言语法的入门, 这个绝对是经典了, 通俗易懂,对于数据分析师,尤其是刚入门的小白,只读到该教程的"面向对象高级编程"以前即可
  • Python数据分析第三方
    • 数据分析: pandas, numpy
    • 绘图包: matplotlib, seaborn
    • 机器学习: sklearn, tensorflow等
  • 书籍:
    • 《利用Python进行数据分析》, 主要介绍如何用pandas进行数据分析,也会讲到numpy,以及matplotlib和pandas绘图, 这本书确实写的很好,但是小白上来阅读可能会一头水雾,所以可以退而求其次,
本文暂无评论,快来抢沙发!

数据分析
热门问答
  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |《永洪社区协议》
返回顶部