永洪社区

标题: <永洪tech>决策树原理 [打印本页]

作者: 永洪tech-lucy    时间: 2017-12-26 15:20
标题: <永洪tech>决策树原理
       产品中实现了两种决策树,分别是ID3决策树(信息增益评判)、CART决策树(Gini系数评判)。两者均可根据给出的离散特征数据(维度)训练出一个可以用于预测、判决某项结果的决策树。


1.   ID3决策树所使用的信息增益算法更偏向于选择分支较多的特征作为根节点生成决策树,根据信息增益的特点我们举个例子:
比如我们实施一部想看看圣诞节什么因素可以让人看起来美,我们选取了很多个因素,比如性别、年龄、性格等。在统计的数据中每行代表实施一部的一个员工,最后一列填入这个员工今天美不美。最后我们发现只要是性别为女的实施一部员工最后一列都是“美”,于是我们得出一个结论——性别为女对于判决实施一部的员工今天美不美是个举足轻重的指标,只要是女生今天都很美,这样我们就说这个指标(因素之下,维度下面的层级)对于最后决策的牵扯很大。
而此时如果“性别”作为根节点构造决策树有什么依据吗?当然,如果性别这个因素的分支(指标,男女),对最后决策牵扯较大时,经过ID3算法处理后,这个分支的信息熵就越小(也就是信息纯度越高),而信息增益即是父节点的信息熵减去子节点的信息熵之和(父节点(因素,维度)的信息熵(纯度)是相同的,因为他们的计算的标准都是最后一列)。
所以,当一个维度里的指标对于最后决策最为关键时,这个维度的信息纯度最大,其信息增益越大。以此节点作为根节点就更合适,能更快更准的做出决策,如下图:
(, 下载次数: 271)