原始数据中的每一行代表一个元素,例如,一个人、地方或做某事的对象。被采集的数据包括维度,它描述了所涉及元素的特征;还包括回答“有多少?”的度量值。度量值可以用算术或统计方法相加、平均或以其他方式处理。现在考虑一下这句没有意义的话: 敏捷的棕色狐狸跳过懒惰的狗。如果你正在把这句话描述为数据,也许是为了一个对动物跳跃能力的重要研究,你对狐狸先生的观察是这样的: 跳跃日期:2013年7月1日,上午10:13 跳跃者种类:赤狐 跳跃者颜色:#826548 跳跃者肩高:0.42 米 跳跃高度:0.78 米 跳跃次数:1 跳跃目标种类:家犬 跳跃目标颜色:#454244 跳跃目标肩高:0.71米 对于跳跃者和被跃者,我们都采集了物种和颜色这两个维度。这些是狐狸和狗的特征。 我们还用数字表示的度量值描述行为者的其他特征以及它做出的动作(一次高度 0.78米的跳跃)。我们还可以创建需要计算的度量值。例如,狐狸的跳跃高度与肩高的比值是多少?在本例中是0.78m,0.42m。这几乎是它肩高的两倍--太棒了,狐狸先生。 当你归纳数据时,你把具有相同维度的分在一组,并用度量值做些合理的事情。现在想象一下,你去了一个动物园,打算观察动物的跳跃。你观察了数天,采集到老虎和羚羊的跳跃。你想要归纳这些数据,所以你机对动物分组并将度量值加总。 有些度量值是可相加的,例如跳跃的总数。其他一些计算平均数或会更有意义。看到归纳数据比看原始数据更普遍。 这3个概念(元素、维度和度量值)开始解释数据图表如何被构建开以被分析。理解大多数数据的一个简单方法是: (1)用维度过滤元素,用以创建一个相关的范围。例如,把结果定于过去 30天内收集的数据。 (2)通过把元素的所有取值相加或平均,对度量值进行归纳。例如平均跳跃高度。 (3)用维度分解度量值,用以观察取值出乎意料地高或低时的特征例如,根据物种对平均跳跃高度进行分解。 大多数分析是如此简单:用相关维度进行过滤;归纳度量值;用维度进行分解。 在某些情况下,你可能遇到的数据产品是呈现在表格中的原始或归纳数报。即使你不是一个富有经验的分析师,你依然可以做很多事情来了解数据中发现的结构和洞察。与其试图吸收整个数据表,不如从了解行开始,然后维续归纳列,如下图所示。 原始数据中的每一行代表一个元素--现实世界中一个单个的、解构的事物。它可能是一个事件,例如,图中展示的某个人,在哪个医院,哪个科室,对应的评分(见图)。每一行可以代表一个人、地方或物体。开始吸收数据时,阅读数据表以了解这个元素是什么以及列如何描述它。 你的面前会浮现出一幅关于数据含义的图。取出一行,将它在同一维度下其他行进行比较。也许这是一个学生,他在某些课程表现良好,而有些课却表现不佳;或是一个时间太长而导致不愉快评论的客服电话。你会发现当你阅读每一行时,一个小型的角色研究浮现了。 如果行是树,那么列有助于你理解整个森林。从移除无用的列开始。 接出自一个数据源的数据表,经常充斥着空白的、多余的或者保留无用信息的字段。找到那些你能与你在现实世界的经验相关联的列。将有吸引力的死分为两部分:维度(元素属性中的谁、什么、哪里以及何时)和度量值(多少) 要了解维度,需要询问这些问题: l 有多少独特的值? l 最普遍的值是什么? l 每个维度中排名靠前的几个值,代表了所用元素中的多大比例? 分析数据中的度量值,更专注于归纳值: ■平均值是什么? ■最小值和最大值是什么? ■什么导致了异常值? ■值的分布是怎么样的? 回答这类问题,可以建立对数据的熟悉度,并揭示数据背后隐藏的对真实世界的洞察。
|