• 欢迎来到魔据教育大数据学院,专注大数据工程师培养!
    当前位置:首页 > 学习资料 > 讲师博文 > C4.5是什么,看大拿怎么说

    C4.5是什么,看大拿怎么说

    时间:2017-08-17 16:57:47作者:[!--zuozhe--]

              C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点:

     
    用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度度量准则),也就是熵的变化值,而C4.5用的是信息增益率。
    在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可能会?#26500;?#36896;的决策树过?#35270;Γ∣verfitting),如果不考虑这些结点可能会更好。
    对非离散数据也能处理。
    能?#27426;?#19981;完整数据进行处理。
    C4.5使用称作增益率(gain ratio)的信息增益扩充。分裂公式如下:

    1-公式1.jpg

    1-公式2.jpg

    GainRatio(A)代表增益率。选择具有最大增益率的属性作为分裂属性。

    那么下面来看信息增益存在的一个问题:假设某个属性存在大量的不同值,如ID编号(在上面例子中加一列为ID,编号为a~n),在划分时将每个值成为一个结点。这就会出现一些问题,我们因此引入了信息增益率的概念

    信息增益率是怎么计算的呢?

    是通过熵/信息增益得到的

    gainratio(Attribute)=fracgain(Attribute)IntrinsicInfo(Attribute)

    gainratio(IDCode)=frac0.940bits3.807bits=0.246

    1-1.jpg

    类别信息熵

    1-2.jpg

    上述数据集有四个属性,属性集合A={ 天气,温度,湿度,风速}, 类别标签有两个,类别集合L={进行,取消}。

    计算每个属性的信息熵

    1-3.jpg

    信息增益

    1-4.jpg

    信息增益的 = 熵 - 条件熵

    信息增益率:

    1-5.jpg

     1-6.jpg

    1. 计算类别信息熵

    1-7.jpg

    2. 计算每个属性的信息熵

     

    1-8.jpg

    3. 计算信息增益

    1-9.jpg

    4.计算属性分裂信息度量
    1-10.jpg

    5. 计算信息增益率

    风速属性的信息增益?#39318;?#39640;,所以选择风速作为分裂结点,分裂之后,发现子结点都是纯的,因此子节点均为叶子节点,分裂结束。

    1-11.jpg

     


    更多大数据相关资讯敬请关注魔据教育,为您分享最及时的大数据资讯。
    学习大数据敬请关注魔据教育微信二维码。
    魔据教育微信二维码

    【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发?#22987;?#33267;[email protected],我们将及时沟通与处理。本站内容除非来源注明魔据教育,否则均为网友转载,涉及言论、版权与本站无关。

    全国咨询热线:18501996998,值班手机:18501996998(7*24小时)

    在线咨询:张老师QQ 320169340

    企业合作服务专线:010-82340234-821, 院校合作洽谈专线:010-82340234

    Copyright 2001-2019 魔据教育 - 北京华育兴业科技有限公司 版权所有,京ICP备17018991号-2

    安徽十一选五开奖号码