一、深度分析界面工具栏介绍 新建 点击创建新的实验。 保存 当用户保存新建的实验时,会弹出保存对话框,用户可设定保存路径以及实验的名称。当用户打开已经存在的实验后,对该实验进行修改,可点击保存按钮直接保存。 另存为 另保存已打开的实验。 编辑参数 可对当前实验添加参数,删除参数以及收集数据集节点中使用到的参数,编辑参数对话框如下图所示。 【添加 / 删除】用户点击添加按钮时,弹出名称编辑对话框,用户可设定参数的名称。在设定好参数后,不支持再对此参数进行重命名操作。如果是收集到的参数,则在此对话框中不能删除此参数,但可以对此参数进行编辑。当被收集的参数在初始设置的地方被删除后,则在此参数对话框中该参数处于可被删除的状态。 【信息】显示参数的被引用的位置。 【类型】用户设定该参数的数据类型。 【默认】用户可设定参数的默认值。用户可设定单个值、多个值或者空值。当用户选择多个值时,用逗号分开输入多个值。 【弹出】当勾选此项时,用户在刷新元数据、测试连接、预览数据集或在编辑器中打开此数据集时,会弹出参数值输入对话框。 【参与报表 “ 参数过滤 ” 的过滤策略】勾选 参与报表 “ 参数过滤 ” 的过滤策略 后,自定义的参数会受仪表盘属性里的参数未选值策略的控制。 【必选】勾选上【参与报表 “ 参数过滤 ” 的过滤策略】后,必选才可以进行选择。选择后在报告中该参数必须要输入参数值,否则仪表盘数据为空。 【可选值】数据集:用户可在已有的数据集中选择一数据集,选择一数据段作为标签,一数据段作为值。如果参数不勾选【弹出】,则直接将这个数据集对应的值传递给这个参数。如果参数勾选【弹出】,则在弹出参数值输入对话框时,其数据将会以指定的方式显示。本产品提供四种显示方式,选择框、列表、复选框、单选框。 假设用户设定以选择框的形式弹出参数值输入框,用户在点击刷新元数据按钮、点击测试连接按钮、点击预览数据集按钮、在编辑器中打开此数据集时,参数值输入对话框中显示默认的数据集值,如下图所示。 在编辑参数中添加的参数也支持手动输入参数值。如图所示: 【可选值】内嵌数据:在可选值中选择内嵌数据,右侧按钮则显示为录入数据,点击录入数据,进入录入数据对话框。输入的数据类型用编辑参数对话框中【类型】控制。如图所示: 【添加】点击右侧的 “ 添加 ” 按钮,在值和标签栏里输入数据。 【删除】选中数据行,点击 “ 删除 ” 按钮,可删除输入的数据。 【上移 / 下移】选中数据行,点击上移或下移,可改变数据的上下位置。 【确定】点击 “ 确定 ”,确定录入的数据。 【取消】取消录入数据。 在对话框中录入数据,其中值不允许为空,标签允许为空,如图所示: 假设用户设定以列表的形式弹出参数值输入框,用户在点击刷新参数按钮、在编辑报告中再次打开此即席数据集报表仪表盘时,参数值输入对话框中显示录入的数据,如下图所示: 如果录入标签,则显示标签;如果没有录入标签,则显示值。 ??刷新参数 对设置了弹出状态的参数重新输入参数值。如存在一参数 param, 处于弹出状态,并且存在默认值 1,如下图所示。 当用户点击刷新参数按钮时,也将会把此参数的默认值刷出来,如下图所示。 关闭 关闭当前实验,倘若用户尚未保存对当前实验的修改,将弹出提示对话框。 二、深度分析界面资源树介绍 资源树包含实验和操作两部分。 实验包括已保存的实验和训练模型,用户可对其进行管理。实验是数据挖掘的流程,训练模型是实验训练后的结果。 操作是制作分析流程所用的节点,主要应用在编辑区,具体介绍请看编辑区介绍。 在实验树上可以通过点击更多菜单来创建文件夹,重命名文件夹及文件,移除文件夹及文件,以及刷新文件目录等操作。不能对已经打开的资源进行重命名、移除操作。还可搜索已经存在的资源。不同文件夹目录下支持重名,但同一个文件夹目录下不允许重名。文件夹内可以嵌套文件夹。 三、深度分析数据变换之标准化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 数据标准化流程如下所示: 1 拖拽一个数据集和一个标准化节点到编辑区,连接数据集和标准化节点 2 通过右侧的”配置项目“页面,对数据标准化进行设置 【方式】标准化方式有两种:离差标准化,Z-Score 标准化。离差标准化是对原始数据的线性变换,使结果落到[0,1]区间。Z-Score标准化处理的数据符合标准正态分布,即均值为0,标准差为1。 【选择列】需要被标准化的数据类型的列。
3 配置完成后点击 运行全部,可得如下结果:
四、深度分析数据变换之采样 采样是一种选择数据对象子集进行分析的常用 数据采样流程如下所示: 1.拖拽一个数据集和一个采样节点到编辑区,连接数据集和采样节点 2 通过右侧的”配置项目“页面,对数据的采样进行设置 3 配置完成后,点击运行全部,会有以下结果展示 五、深度分析数据变换之数据分区 数据分区就是把数据集节点的数据分为验证集和训练集 数据分区方法如下所示: 1 拖拽一个数据集和一个数据分区节点到编辑区,连接数据集和数据分区节点 2.将数据分区节点添加到实验后,可通过右侧的”配置项目“页面,对数据分区进行设置: 【训练集比例(%)】训练集占总样本数的比例,默认值是60。 【随机拆分】当不选中时按顺序抽取训练集。当选中时随机抽取训练集。默认未选中。 【随机数种子】生成随机数的种子。默认值是0。
3 配置完成,点击 全部运行,出现如下结果
六、深度分析界面编辑区介绍 编辑区是用来制作流程式分析的容器,可以拖拽不同的节点进来,建立不同的分析流程,将其结果以可视化的形式展示出来。具体介绍请参看以下章节。 七、深度分析数据数据探索之相关分析 相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。 数据探索相关分析流程如下: 1 拖拽一个数据集和一个相关分析节点到编辑区,连接数据集和相关分析节点 2 通过右侧的”配置项目“页面,进行设置: 【相关系数】相关系数有三种:Pearson,Kendall,Spearman。 •Pearson相关系数(Pearson Correlation Coefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。 •Kendall系数是n个同类的统计对象按特定属性排序,其他属性通常是乱序的。同序对(concordant pairs)和异序对(discordant pairs)之差与总对数(n*(n-1)/2)的比值。 •Spearman相关系数是衡量分级定序变量之间的相关程度的统计量。 【选择相关列】点击选择按钮打开选择列对话框,从左边拖拽列到右边,添加相关列。
3 配置完成,点击 运行全部,显示以下结果:
|