永洪社区

标题: 你务必要搞清楚的六大数据分析知识点 [打印本页]

作者: puffs    时间: 2024-2-27 11:35
标题: 你务必要搞清楚的六大数据分析知识点
现在,几乎每个行业都在与大数据衔接,出现了很多的大数据应用。现在的很多研究和工作都离不开大数据及其相关知识。

所以,学习、研究大数据是必要的。但是,要想真正理解大数据并应用好大数据,就必须清楚地理解数据分析;只有经过数据分析,我们才能真正用好大数据,发挥好大数据的威力。

本篇主要内容:

    什么是数据分析(概念、作用、类型)?
    数据分析的流程。
    数据分析的三大误区。
    数据分析与数据挖掘的区别。
    几个常用指标和术语。
    数据分析师的职业发展。



一、数据分析是什么?
1. 何谓数据分析

用适当的统计分析方法和相应工具,对收集来的大量数据进行详细研究和概括总结,提取有用信息和形成结论,这一过程叫做数据分析。

数据分析有广义和狭义之分,广义的数据分析包括狭义的数据分析和数据挖掘。
2. 数据分析的三大作用

数据分析的三大作用:现状分析、原因分析、预测分析。

数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。
3. 数据分析的三个类别

数据分析的三个类别:描述性分析、探索性分析、验证性分析。

二、数据分析的过程(流程或者程序)
1. 数据分析的具体程序

    明确分析目的和内容
    数据收集
    数据处理
    数据分析
    数据展现
    撰写报告

2. 数据分析分步详解

   · 明确分析目的和内容
首先,要明确分析目的。数据分析目的不明确会导致分析过程非常盲目。
然后,确定分析思路。梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标。
最后,还要确保分析框架的体系化,使分析结果具有说服力。营销方面的理论模型有 4P、用户使用行为、STP 理论、SWOT 等;管理方面的理论模型有 PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART 等。

    ·数据收集
一般数据来源:数据库、公开出版物(统计年鉴或报告)、互联网、市场调查等等

    ·数据处理
数据处理方法主要包括:数据清洗、数据转化、数据提取、数据计算等处理方法。(在做数据处理时,不要再原始数据上进行数据处理以防止原始数据丢失,保留数据处理过程以便发现错误时查找)

    ·数据分析
数据分析:用适当的统计分析方法和相应工具,对收集来的大量数据进行详细研究和概括总结,提取有用信息和形成结论,这一过程叫做数据分析。
与数据挖掘的关系是数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。
   
    ·数据展现
一般情况下,数据是通过表格和图形等方式来呈现的。常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等。
在一般情况下,能用图说明问题的就不用表格,能用表说明问题的就不用文字。

    ·撰写报告
首先,好的数据分析报告,需要有一个好的分析框架、图文并茂、层次清晰、结构清晰、主次分明、一目了然。
另外,数据分析报告,还需要有明确的结论,没有明确结论的分析称不上分析。 此外,好的数据分析报告,一定要有建议或解决方案。

三、数据分析的三大误区
1. 分析目的不明确,为分析而分析。
2. 缺乏业务知识,分析结果偏离实际。数据分析师的任务不是单纯做数学题,数据分析师还必须懂
3. 一味追求使用高级分析方法,热衷研究模型。我们做的是数据分析,只要在成本范围内,能够快速高效完成即可,没必要过分追求技术方法。


四、数据分析与数据挖掘的区别
1. 数据分析有两种说法
即广义的数据分析和狭义的数据分析。广义的数据分析包括狭义的数据分析和数据挖掘,而我们常说的数据分析就是指狭义的数据分析。
2. 数据分析(狭义)
    定义:简单来说,狭义的数据分析就是对数据进行分析。专业的说法,狭义的数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
    作用:它主要实现三大作用:现状分析、原因分析、预测分析(定量)。狭义的数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。
    方法:主要采用对比分析、分组分析、交叉分析、回归分析等分析方法;
    结果:狭义的数据分析一般都是得到一个指标统计量结果。比如,总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。

3. 数据挖掘
    定义:数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
    作用:数据挖掘主要侧重解决四类问题,即分类、聚类、关联和预测(定量、定性)。数据挖掘的重点在寻找未知的模式与规律。比如,我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息。
    方法:主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。
    结果:输出模型或规则,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等。

4. 综合起来
    数据分析(狭义)与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、改进产品以及帮助企业做更好的决策。所以数据分析(狭义)与数据挖掘构成广义的数据分析。

五、几个常用指标和术语
1. 平均数、绝对数和相对数
    绝对数就是总量指标,绝对数是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合指标;比如,一定总体范围内粮食总产量、工农业总产值、企业单位数等。
    相对数就是相对指标,它是由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。相对数=比较数值(比数)/基础数值(基数),分母是用作对比标准的指标数值,简称基数;分子是用作与基数对比的指标数值简称比数。相对数的表现形式,通常以系数、倍数、成数、百分数或千分数表示。

2. 百分比和百分点
    百分比是用来表示相对指标的一种常用形式,也叫百分率或百分数。百分比是以 100 为分母的分数,采用符号“ % ”(百分号)来表示。资料分析涉及的增长率、比重、普及率、占有率等常用百分比表示;比如 11%。
    百分点是用以表达不同百分比之间的“算术差距”(即差)的正确单位,常用来表示以百分比形式的相对指标的变动幅度;比如, 13% 比 11% 多 3 个百分点。

3. 频数和频率
    频数是指在多次试验中,某个时间出现的次数。
    频率=频数/总数。

4. 比例和比率
    比率,即比值,两数相比所得的值。比率表示总体中的一部分与总体作比较,一般用百分比的形式表示。
    比例,比例表示总体中两个部分之间的比较,一般用几比几的形式表示。

5. 倍数与番数
    番数是指原来数量的 2 的 N 次方倍,比如翻一番为原来数量的2倍(2 的一次方),翻两番为 4 倍(2 的二次方)。
    倍数,比如 6 是 3 的两倍。

6. 同比与环比
    同比是与历史同时期进行比较得到的数值。比如,2010 年 10 月和 2009 年 10 月比较。
    环比是指与前一个统计期进行比较得到的数值。比如,2010 年 11 月和 2010 年 10 月比较。

六、数据分析师的职业发展
1. 数据分析的广阔前景
2018 年,数据分析师的需求量将增长 20%。即使你不是数据分析师,但数据分析技能也是未来必不可少的工作技能之一。
2. 数据分析师的职业要求
懂分析,懂工具,懂业务,懂管理,懂设计等等。

   · 懂分析
    基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。
    高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。

    ·懂工具
    常用的数据分析工具有 Excel、PPT、Access、SPSS、SAS,先学会用 Excel,它能解决 80% 甚至 100% 的问题。

    ·懂设计
    图表的设计是大学问,如图形的选择、版式的设计、颜色的搭配等,都需要掌握一定的设计原则。
    懂可视化技术、会编程。
    会可视化工具和技术,会编程,你将跨入中高级数据分析师行列。比如 ECchart、HighChart、numpy、matplotlib 等等,Python、R 编程语言等等。










欢迎光临 永洪社区 (https://club.yonghongtech.com/) Powered by Discuz! X3.4