本帖最后由 tyler 于 2017-9-3 21:35 编辑
数据挖掘项目的系统实施通常要求遵循一般的流程。其中,数据挖掘跨行业标准流程(CRISP-DM)可以认为是应用最为广泛的一种标准化数据挖掘流程。该流程包括6个步骤,以业务和数据挖掘项目需求的深入理解开始,以能够满足特定业务需求的解决方案部署结束。尽管这些步骤是顺序进行的,但通常仍然存在诸多回溯。其流程图如下图所示。
步骤一:理解业务
理解研究目的是任何数据挖掘研究的关键要素。理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。
步骤二:理解数据
在理解业务后,需要从很多可用数据库中识别相关数据。在数据辨识和选择阶段,需要考虑很多关键点。首先,清晰简洁地描述数据挖掘任务,以识别出最为相关的数据;其次,深入理解各个数据源和各个变量。为了更好地理解数据,可以使用各种统计技术和图形技术来分析变量,比如计算平均值、最大值、最小值、标准差等。
步骤三:数据准备
数据准备也常被称为数据预处理。普遍认为,这一步大约耗费整个数据挖掘项目80%的时间,原因是现实世界中的数据一般不完整(缺失属性值等)、有噪声(包含错误或者离群值)、不一致(代码或名称存在差异)。
数据预处理分为4个阶段。
数据整合:从识别出的数据源中收集相关数据,基于对数据的深入理解过滤掉不必要的部分,筛选出必要的记录和变量,将数据源的数据记录进行集成;
数据清洗:主要包括处理数据缺失值,降低数据噪声,发现并消除错误数据;
数据转换:将变量标准化到一个特定的最大值或最小值区间中,减轻可能存在的个别大数值变量对其他小数值变量的支配偏向;进行离散或数据聚集,将数值变量转换为分类变量;根据已有变量生成新的变量,以便从数据集的变量集合中得到的信息量更大;
数据简化:主要包括减少属性数量(维度缩减);减少记录数量,对数据集进行采样以供分析,数据采样的基本假设是数据样本将包含完整数据集中的所有相关模式;平衡偏斜数据,对表达较少的数据进行超采样,对表达较多的子类进行欠采样。
步骤四:建模
从各种建模技术中进行选择,并将其应用到已经准备好的数据集,以解决具体商业需求。
步骤五:测试和评估
对所建立模型的精确性和一般性进行评估,来确定模型是否能满足业务目标。
步骤六:部署
通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担部署的工作。。
|