《机器学习》：决策树

基本流程

决策树是基于树结构来进行分类，叶子节点对应决策结果，分支节点对应一个属性测试

决策树的递归过程有三种情况导致返回

决策树的每个节点需要从属性集中选择最优的划分属性，再根据该属性进行样本集划分

通常使用信息熵度量样本集合纯度，设样本集 D 中第 k 类样本所占比例为 $p_k$ ，则信息熵定义为

Ent(D)=-\sum\limits^{\vert C\vert}_{k=1}p_k\log_2p_k

信息熵的值越小，D 的分类纯度越高

对于一个特定属性 a 可以计算它的信息增益，设属性 a 的取值为 $a^1,a^2,...,a^V$ ，所有在属性 a 上取同一个值的样本的集合为 $D^v$ ，则属性 a 的信息增益为

Gain(D,a)=Ent(D)-\sum\limits^V_{v=1}\frac{\vert D^v\vert}{\vert D\vert}Ent(D^v)

属性的信息增益越大，使用该属性进行划分获得的纯度提升越大，ID3 决策树算法就是使用信息增益作为划分准则

信息增益的划分准则对取值数目较多的属性具有偏好，在 C4.5 决策树算法中使用增益率作为划分准则

\begin{aligned} Gain\_ratio(D,a)&=\frac{Gain(D,a)}{TV(a)}\\ IV(a)&=-\sum\limits^V_{v=1}\frac{\vert D^v\vert}{\vert D\vert}\log_2\frac{\vert D^v\vert}{\vert D\vert} \end{aligned}

$IV(a)$ 称为属性 a 的固有值，属性取值越多，固有值越大，增益率准则对属性取值较少的属性具有偏好

基尼指数反映了从 D 中随机抽取两个样本，它们不属于同一类的概率，基尼指数越小，样本集纯度越高

Gini(D)=\sum\limits^{\vert C\vert}_{k=1}\sum\limits_{k'\ne k}p_kp_{k'}=1-\sum\limits^{\vert C\vert}_{k=1}p_k^2

属性 a 的基尼指数为

Gini\_index(D,a)=\sum\limits^{\vert V\vert}_{v=1}\frac{\vert D^v\vert}{\vert D\vert}Gini(D^v)

决策树算法使用剪枝来解决过拟合，分为预剪枝和后剪枝

预剪枝

在每个节点确定划分前先比较划分前和划分后的预测精度，若划分后精度大于划分前精度，则确定当前属性划分

预剪枝会阻止精度较低的判定分支展开，这可能导致后续精度提升较大的划分无法展开，导致欠拟合
后剪枝

先训练一棵决策树，自底向上对分支节点判断将分支节点替换为叶子节点是否能提升泛化性能，若能，则替换为叶子节点