信息增益

DNA图谱 / 问答 / 标签

信息增益率必须小于1吗 用过的分类属性是不能在用来分类的，假设：再用来分类的情况下，在数据很充分时，相当于把整个数据集合中的每一条信息用树结构表达出来。

有没有可能信息增益和gini指标增益支持不同的属性 将传递函数表达式写成分式形式同时分子写成各个因素之积的形式。开环根轨迹增益，就是上述形式所有s的系数化为1，即类似于(S+a)这种“首1”形式后的比例系数，常用K*来表示;开环增益，是将上述形式所有项写成环节的形式，即(tS+1)的“尾1”形式后的比例系数，长用K来表示。可见出现相等的情况是会比较多的，和比例系数、开环根、时间常数等都有关系。

利用信息增益选特征时特征的值太多怎么办 不是十分清楚你手中数据的情况，粗略判断，你可以考虑用分类决策树模型来做决策树模型在以连续性变量为目标的时候，是一种特殊形式的回归模型，它可以给出其它信息对目标变量改变情况贡献程度的量化（标准化），还可以用建好的模型预测新样本的。

数据挖掘中,连续属性的所有可能的划分的信息增益如何计算啊 不是十分清楚你手中数据的情况，粗略判断，你可以考虑用分类决策树模型来做决策树模型在以连续性变量为目标的时候，是一种特殊形式的回归模型，它可以给出其它信息对目标变量改变情况贡献程度的量化（标准化），还可以用建好的模型预测新样本的目标变量。（数学学到很深的程度以后，你就会知道，这些东西都是相通的）推荐用决策树模型中的CHAID模型，就是卡方自动交互检验模型，如果有更深的问题可以追问我

请高手解决一下。数据挖掘中信息增益到底是什么意思。谢啦！ 信息增益是指信息不确定性的减少量

信息增益可以是负数吗 决策树中信息增益不可能是负的

决策树信息增益计算结果为负值说明什么 我正在实施C4.5，并在我的计算中得到（对于某些示例）信息增益的负值。我读了Why am I getting a negative information gain，但我的发现看起来不一样。我推杆我的计算脱颖而出，我也得到了相同的结果如下：信息增益的负值My calculations我到底做错了什么？我试图重新计算它的，也是我得到负值是在下面的图片： Newest calculations with data set 80分的值，所以我得到11 < = 80和3objects> 80来源2017-02-09 user3785803您使用的熵的公式是什么？ – slcott熵公式： - SUM（概率* LOG（BASE 2，概率）） – user3785803A回答0你乘以你的结果对于熵由-1？$$ H（X）= - sum_ {I = 1}^N { mathrm {P}（X_I） log_b mathrm {P}（X_I）} $$唉.. 。使用mathjax时遇到问题，go here for definition来源2017-02-09 20:03:31 slcott是的，我将熵乘以-1，例如。公式= - （N3 * LOG（N3; 2）+ O3 * LOG（O3; 2）） – user3785803相关问题1. 信息收益的价值可以为负值吗？2. Weka使用增益比和信息增益（ID3＆C4.5（J48））3. Rpart改进得分与信息增益4. 为什么我会得到负面的信息收益？5. 如何计算信息增益的值以减少浮点逼近误差？6. 增益蟒蛇y轴值7. 使用Scikit-learn进行信息增益计算8. 获得最佳的功能，它提供了最大的信息增益9. alpha在信息增益修剪功能的上下文中是什么意思？10. 增加收益关键字值？11. 指令在负载信息12. 负荷信息与NSKeyedUnarchiver13. 谷歌地图API的负载信息14. 负载信息的UIWebView作为HTML15. 网络音频API增益16. C++/CLI性能增益17. 声音平底锅增益？18. 性能增益属性19. 使用Simulink的PI控制器的增益值20. 如何制作“太多负载”信息21. jquery ajax使用负载传递信息22. 映射中的值[0.0-1.0]到颜色增益23. 无法将mergeinfo count ...递增到负值24. 如何控制输出的增益？25. OpenJDK中的"不支持主增益"26. 布尔真或假，负收益27. 分片EC2 EBS卷收益性能增益？28. 哪些算法从融合乘法增益中获益最多？29. 无益Oracle错误信息：有望％S，拿到％S使用TO_DATE30. Rpm包信息：自动递增版本每日一句每一个你不满意的现在，都有一个你没有努力的曾经。最新问题1. 关于Windows应用程序开发和NPAPI插件2. 电力数据存储湖泊中的表格数据模型BI3. 需要将文本的特定行写入新文本4. jQuery的动态CSS属性（在滚动）5. Eclipse手动/脱机JBoss Tools Luna安装：缺少需求abc需要"bundle xyz"，但找不到6. Laravel登记错误，数据库连接，但收到奇怪的错误7. highmaps在迁移到.NET Core后停止更新8. 拦截winsock的recvfrom函数提供了无效地址错误9. 改变列的默认值10. WCF单例服务：单实例每个？每个主机实例

python里怎么计算信息增益，信息增益比，基尼指数 1、首先自定义一份数据，分别计算信息熵，条件信息熵，从而计算信息增益。2、然后我们按下图输入命令计算信息熵。3、再按照下图输入命令计算条件信息熵。4、再输入下图命令，计算信息增益。5、输入下列代码计算信息增益比。6、最后按照下图代码计算出基尼指数。

SPSS中怎么计算某个属性的信息增益啊，本人新手，求大神给个具体的方法 粗略判断，你可以考虑用分类决策树模型来做决策树模型在以连续性变量为目标的时候，是一种特殊形式的回归模型，它可以给出其它信息对目标变量改变情况贡献程度的量化（标准化），还可以用建好的模型预测新样本的目标变量。（数学学到很深的程度以后，你就会知道，这些东西都是相通的）

信息增益以什么为基础 信息熵。信息增益直接以信息熵为基础，计算当前划分对信息熵所造成的变化。大多数包括信息增益公式的公式都使对数函数保持原样，即与基数无关。

信息增益的定义 设离散随机变量的概率分布P和Q，它们的信息增益定义为其中分布P和Q必须是概率分布，而且对于任何P(i)>0，必须有Q(i)>0。当P(i)=0时，公式的值为0。从公式看，信息增益是以分布P为权重的P和Q对数差值的加权平均。信息增益的连续分布形式：其中p和q表示P和Q的密度概率函数更一般地，P和Q是集合X上的概率测度，Q关于P绝对连续，从P到Q的信息增益定义为假设右式存在，dQ/dp是Q关于P的Radon-Nikodym导数，如果P关于Q也绝对连续，那么上式可变为上式可视为P关于Q的熵。如果u是集合X上的任何测度，即有p=dP/du和q=dQ/du存在，那么从P到Q的信息增益可定义为当信息以比特为单位时，公式中的对数的基数为2。当信息以nats为单位时，基数为e。大多数包括信息增益公式的公式都使对数函数保持原样，即与基数无关。注意，信息增益是要讲方向的，上述公式都是计算从P到Q的信息增益。

什么是信息增益 在概率论和信息论中，信息增益是非对称的，用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时，再使用P进行编码的差异。通常P代表样本或观察值的分布，也有可能是精确计算的理论分布。Q代表一种理论，模型，描述或者对P的近似。尽管信息增益通常被直观地作为是一种度量或距离，但事实上信息增益并不是。就比如信息增益不是对称的，从P到Q的信息增益通常不等于从Q到P的信息增益。信息增益是f增益(f-divergences)的一种特殊情况。在1951年由Solomon Kullback 和Richard Leibler首先提出作为两个分布的直接增益(directed divergence)。它与微积分中的增益不同，但可以从Bregman增益(Bregman divergence)推导得到。

什么是信息增益 信息增益（Kullback–Leibler divergence）又称information divergence，information gain，relative entropy 或者KLIC。信息增益在概率论和信息论中，信息增益是非对称的，用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时，再使用P进行编码的差异。通常P代表样本或观察值的分布，也有可能是精确计算的理论分布。Q代表一种理论，模型，描述或者对P的近似。尽管信息增益通常被直观地作为是一种度量或距离，但事实上信息增益并不是。就比如信息增益不是对称的，从P到Q的信息增益通常不等于从Q到P的信息增益。信息增益是f增益（f-divergences）的一种特殊情况。在1951年由Solomon Kullback 和Richard Leibler首先提出作为两个分布的直接增益（directed divergence）。它与微积分中的增益不同，但可以从Bregman增益（Bregman divergence）推导得到。

决策树中criterion 属性为entropy代表的是信息增益还是信息熵 一、最佳拆分如何将纯度增加进行量化呢？用于评价拆分分类目标变量的纯度变量包括：基尼（Gini）CART熵（信息增益）ID3信息增益比率 C5卡方检验 CHAID1、基尼以意大利统计学家和经济学家Corrado Gini的名字命名的拆分标准，它也被生物学家和生态学家用于总体多样性研究，这种方法用于计算从相同的总体中随机选择的两项处于同一类中的概率，对于一个纯的总体，此概率为12、熵和信息增益对于某个指定决策树结点，熵是该结点所代表的全部类中，每个特定类的记录的比例乘以该比例以2为底的对数后的总和，一个拆分的熵就是该拆分产生的所有结点的熵按照每个结点的记录所占比例的加权和。例子：两课决策树，决策树1根节点包括10个正类，10个负类（总共20个样本），左叶节点9个正类，1个负类。右叶结点9个负类，1个正类。决策树2根结点包括10个正类，10个负类，左叶结点6个正类，右叶结点4个正类，10个负类。通过GINI和信息增益判断两棵树的优劣

数据挖掘课程，有关信息增益的代替指标有哪些，并找出相关英文论文，我只找到了gini index，帮帮我 国际权威学术组织的数据挖掘（ICDM）12 2006 IEEE国际会议上入选十大经典领域的数据挖掘算法：C4.5，K均值，SVM，先验，EM的PageRank，AdaBoost的朴素贝叶斯，KNN，和CART 不只是所选算法10，事实上，参与的18种算法的选择，其实，只是为了拿出一个可以称得上是经典算法的数据挖掘领域有产生深远的影响。的C4.5 C4.5算法是一种分类决策树算法，机器学习算法，核心算法是ID3算法C4.5算法继承了ID3算法的优点和ID3算法已经在以下几个方面： 1）信息增益率提高，选择属性，克服偏差值选择属性信息增益选择属性缺乏; 2）在树结构中修剪; 3）完成的过程中连续属性离散化; 4）不完整的数据。 C4.5算法有以下优点：产生的分类规则易于理解，准确率较高。其缺点是：在树形结构中，顺序扫描和排序的数据集，从而导致低效率的算法。 2。 K-means算法 k-means算法算法的k-means算法是一个聚类算法，根据其属性分成K，K <N的n个对象。与混合正态分布预期的算法是非常相似的，因为他们正试图找到一个自然聚类在数据中心。它假定从向量空间的对象属性，并且目标的各组内的最小均方误差的总和。支持向量机支持向量机，支持向量机的英语，简称SV机（通常被称为纸SVM）。这是一个监督的学习方法，这是广泛使用的统计分类和回归分析。支持向量机向量映射到高维空间，在这个空间中创建有一个最大间隔超平面。在单独的数据的超平面的两侧上的两个相互平行的超平面。分离超平面，使两个平行的超平面的距离最大化。假设越大平行的超平面的距离或空隙时，分类器的总误差越小。优秀导游CJC Burges“模式识别支持向量机指南。范德沃尔特和巴纳德的支持向量机等分类进行了比较。Apriori算法 Apriori算法是一个最有影响力的挖掘布尔关联规则频繁项集算法，其核心是一组递归算法思想的基础上两个阶段的频率。关联规则被归类为一维的，单一的，布尔关联规则。在这里，所有支持大于称为最小支持度的项集称为频繁项集，作为频率设定最大期望（EM）算法在统计计算的最大期望（EM，期望最大化）算法找到参数最大的期望经常用在机器学习和计算机视觉数据采集领域（数据聚类模型中的概率（概率）似然估计算法，其中概率模型是依赖于不可观察的隐变量（潜variabl）。）6。的PageRank 谷歌的PageRank算法，2001年9月被授予了美国专利，该专利是谷歌创始人拉里·佩奇（Larry Page）。，PageRank和多年的不是指到页面上，但，这个水平是命名。的PageRank根据网站的数量和质量来衡量网站的价值的内部和外部链接。背后的PageRank概念每个链接的网页是一个投票的页面，链接，投票更意味着其他网站，这是所谓的“链接流行度” - 衡量有多少人愿意被链接到他们的网站，您的网站。被引述的PageRank的概念经常被引用在学术论文 - 即被引用其他一些更普遍的权威判断本文 7 AdaBoost的 Adaboost的是一种迭代算法其核心思想是相同的训练集的不同的分类器（弱分类器），然后这些弱分类器共同构成一个更强的最终分类器（强分类器）。这个算法本身是通过改变数据分布，它是正确的，根据分类每个训练集的每个样品，和最后的总分类精度来确定每个样品的重量。的新数据集的权重给较低的分类器的训练，融合每个训练上的最终的分类，作为最终决定分类KNN：k-最近邻分类 K近邻（K近邻，KNN）分类算法，是一个理论上更成熟的方式，也是最简单的机器学习算法的想法？方法是：如果在特征空间中的样本，K最相似的（即，在特征空间中最接近的大多数样品）属于一类，将样品也属于这一类。 BR p> 9。朴素贝叶斯在众多的分类模型，两种最常用的分类模型是决策树模型（决策树模型）和Na？ve Bayes分类模型（朴素贝叶斯模型，NBC）天真贝叶斯模型发源于古典数学理论，具有扎实的数学基础，以及稳定的分类效率。与此同时，需要非常少的参数估计NBC模型，丢失的数据是不敏感的算法是相对简单。从理论上讲，NBC模型具有最小的误差率相比，与其他分类方法。但事实上并非总是如此，这是因为NBC模型假设属性相互独立的，在实际应用中，这种假设是往往不成立的，这带来了一定影响NBC模型的正确分类。数量的属性或属性之间的相关性较大时，NBC模型的分类比较决策树模型的效率。物业较少有关，表现NBC模型是最有利的。10。车：分类和回归树车，分类与回归树。在分类树下面有两个关键的思路。第一个是的想法？递归划分的独立变量的空间;第二个想法是修剪与验证数据。

数据挖掘中，属性A的信息增益比属性B的信息增益大,说明了什么? 说明A更能决定训练集的分类，也就是A比B更重要。举个极端的例子，以学生买电脑为例，如下所示：=======================================性别学历专业是否买电脑=======================================男研究生计算机买女研究生非计算机不买男本科计算机买女研究生非计算机买男大专非计算机买男本科计算机买======================================== 设A属性为专业，B属性为学历，计算得到A属性的信息增益比B的大，也就是说在分类时，A属性比B属性更具参考价值。事实也正是这样，从上表可得到：只要是计算机专业的学生都买电脑的结论，而通过学历并不能得出任何结论，以为哪种学历的学生都可能买或不买。不知道这样你能否懂。信息收益可以定义为样本按照某属性划分时造成熵减少的期望。也即是否能由该属性直接判断处分类，而不用在考虑其他属性。

为什么说信息增益量偏向具有许多输出的测试

import java.awt.*;import javax.swing.JFrame;import javax.swing.JLabel;import javax.swing.SwingConstants;import javax.swing.WindowConstants;import javax.swing.border.*;public class jframe {/*** @param args*/public void CreateJFrame(String title) {JFrame jf = new JFrame(title);Container container = jf.getContentPane();JLabel jl = new JLabel("");jl.setHorizontalAlignment(SwingConstants.CENTER);container.add(jl);container.setBackground(Color.white);jf.setVisible(true);jf.setSize(200, 150);jf.setDefaultCloseOperation(WindowConstants.EXIT_ON_CLOSE);};

信息增益在线性回归中的作用 一个是线性回归分析研究X(自变量,通常为定量数据)对Y(因变量,定量数据)的影响关系情况另一个是使用建立的线性回归模型，去利用已经知道的自变量来预测未知的因变量。

请基于"信息增益"的方法判断哪个属性更好 粗略判断，你可以考虑用分类决策树模型来做决策树模型在以连续性变量为目标的时候，是一种特殊形式的回归模型，它可以给出其它信息对目标变量改变情况贡献程度的量化（标准化），还可以用建好的模型预测新样本的目标变量。（数学学到很深的程度以后，你就会知道，这些东西都是相通的）

信息增益率的介绍 信息增益率，是一种增益率，数学名词。

什么是信息增益? Information GainName: Information Gain CrossReferences: EntropyFOIL"s Information GainDescriptionThe Information Gain is a measure based on Entropy. Givena set E of classified examples and a partition P = {E1, ..., En} of E. The Information Gain is defined asig(E, P) := entropy(E) - entropy(Ei) * |Ei| / |E| i=1,...,n Intuitively spoken the Information Gain measures the decrease of the weighted average impurity of the partitions E1, ..., En, compared with the impurity of the complete set of examples 数据的某个属性的信息增益是将一个数据集划分后熵(混乱,无序)的减少量.另外http://www.everything2.com/index.pl?node_id=1208357有一个很形象的说法，不过是英语的，自己搞定吧，好象是数据挖掘方面的术语，找本数据挖掘的书看有没有吧，希望有帮助！另外还可以用信息增益作为关键词搜索pdf文件，我搜到了可是上班的机子没有adobe reader，剩下的自己搞定吧！

信息增益越大属性优先执行? 信息增益越大属性优先执行。好的条件就是信息增益越大越好,即变化完后熵越小越好(熵代表混乱程度,最大程度地减小了混乱)。因此我们在树分叉的时候,应优先使用信息增益最大的属性,这样降低了复杂度,也简化了后边的逻辑。

信息增益准则为什么对可取值数目较多的属性有所偏好 从公式出发，信息增益是整个数据集的经验熵与特征A对整个数据集的经验条件熵的差值，信息增益越大即经验条件熵越小，那什么情况下的属性会有极小的的经验条件熵呢？举个极端的例子，如果将身份证号作为一个属性，那么，其实每个人的身份证号都是不相同的，也就是说，有多少个人，就有多少种取值，如果用身份证号这个属性去划分原数据集，那么，原数据集中有多少个样本，就会被划分为多少个子集，这样的话，会导致信息增益公式的第二项整体为0，虽然这种划分毫无意义，但是从信息增益准则来讲，这就是最好的划分属性。其实从概念来讲，就一句话，信息增益表示由于特征A而使得数据集的分类不确定性减少的程度，信息增益大的特征具有更强的分类能力。

信息增益擅长处理的数据类型 您要问的是信息增益擅长处理的数据类型是什么？分类数据。信息增益是决策树算法中特征选择的一个重要指标，它定义为一个特征能够为分类系统带来多少信息，带来的信息越多，说明该特征越重要，相应的信息增益也就越大。因此，信息增益擅长处理的数据类型是分类数据。

【理论篇】决策树算法 - 信息增益 连载上一篇文章末尾提到的两个问题： 1）如何选择特征？ 2）如何进行特征的切分？本节我们主要解决第一个问题：如何选择特征。根节点的选择该用哪个特征呢？接下来呢？如何切分呢？可以想象一下，根节点好比一个趁手的过滤网，通过根节点切分数据之后，可以很好地将样本初步区分开，即分类效果更好。根节点下面的节点，自然就是分类能力第二的特征了。那如何评估特征的分类能力呢？这就须要我们找到一种衡量标准，来计算通过不同特征进行分支选择后的分类情况，找出来最好的那个当成根节点，以此类推。通俗讲就是物体内部的混乱程度，比如杂货市场里面什么都有，非常混乱，选择购买某类商品（随机变量）的不确定性很大，熵就越高。专卖店只卖一个牌子的商品，商品种类有限，不确定小，熵就越小。举个栗子：上述两个集合，显然 A 集合的熵值要低，因为 A 里面只有两种类别，不确定性小；而 B 中类别太多了，熵值就会大很多。熵可以帮助我们度量随机变量的不确定性，不确定性越大，得到的熵值也就越大。那在分类任务中我们希望通过节点分支后数据类别的熵值大还是小呢？当然是越小越好了，数据通过节点分支后，我们希望每个分支的数据越干净越好，这样才能把不同的类别更好的区分开。那如何决策一个节点的选择呢？我们可以使用数据集原始的熵值减去经过节点分支之后求取的熵，选择差额最大的作为第一个节点。这个差额我们称之为信息增益，即特征 X 使得类 Y 的不确定性减少的程度。可以理解为分类后的专一性，希望分类后的结果是同类在一起。有如下数据集：包含 4 个特征，分别是天气、温度、湿度以及是否有风；标签列为 Play 是否出游。我们将根据该数据集，构造决策树，更具输入的户外情况来预测是否出游。首先，原始数据集中有 9 天出游，剩下的 5 天不出游，所以原始数据集的熵为：接下来，我们选取根节点，分别计算 4 个特征切分后的熵值。先从 outlook 特征开始：计算切分后的整体熵值，需要为每个切分后的数据集乘以一个权重参数：上述的权重参数 5/14 4/14 5/14 即统计数据中， outlook 取值分别为 sunny，overcast，rainy 的概率。经过 outlook 节点切分后，系统的熵值从原始的 0.940 下降到了 0.693 ，信息增益为 0.247。同样的方式可以计算出其他特征的信息增益：使用 temperature 切分数据集后的信息增益：使用 humidity 切分数据集：使用 humidity 切分数据集后的信息增益：使用 windy 切分数据集：使用 windy 切分数据集后的信息增益：最后，我们选择信息增益最大的特征就可以了，相当于是遍历了一遍特征，找出来了根节点，然后再其余的特征中继续通过信息增益找接下来的分支节点。使用信息增益作为衡量标准的决策树算法又称为 ID3 。但 ID3 算法对于分布稀疏的特征是存在问题的，具体是什么问题呢？我们下节见~ (*￣︶￣)

会飞信息增益计算公式 信息增益=父节点的熵-条件熵。父节点的熵表示整个数据集的不确定性，条件熵表示在某个特征下，数据集的不确定性。信息增益越大，表示使用该特征进行分类可以获得更多的信息，因此该特征的重要性越高。

python里怎么计算信息增益，信息增益比，基尼指数 1、首先自定义一份数据，分别计算信息熵，条件信息熵，从而计算信息增益。2、然后我们按下图输入命令计算信息熵。3、再按照下图输入命令计算条件信息熵。4、再输入下图命令，计算信息增益。5、输入下列代码计算信息增益比。6、最后按照下图代码计算出基尼指数。

特征选择之信息增益 在文本分类中利用信息增益进行特征提取信息增益体现了特征的重要性，信息增益越大说明特征越重要假设数据中有k类：每类出现的概率是：各类的信息熵计算公式：对某个词汇word需要计算word在所有类别中出现的概率：就是：出现word的文件数除以总文件数 word不出现的概率：就是没有出现word的文件数除以总文件数条件熵的计算：这里我们用到了T表示word这个特征其中表示：出现word的文件的信息熵计算方式：其中：表示出现word的情况下是Ci类的概率，计算方式：Ci类中出现word的文件数除以总的出现word的文件数表示不出现word的条件熵计算方式其中表示没有出现word的情况下是Ci类的概率，计算方式：Ci类中没有出现word的次数除以总类中没有出现word的次数总的信息增益计算公式信息熵体现了信息的不确定程度，熵越大表示特征越不稳定，对于此次的分类，越大表示类别之间的数据差别越大条件熵体现了根据该特征分类后的不确定程度，越小说明分类后越稳定信息增益=信息熵-条件熵，越大说明熵的变化越大，熵的变化越大越有利于分类

信息熵（香农熵）、条件熵、信息增益的简单了解 1948年，香农提出了 “信息熵（entropy）”的概念信息熵是消除不确定性所需信息量的度量，即未知事件可能含有的信息量。通俗的讲信息熵是用来衡量信息量的大小。信息熵是代表随机变量的复杂度（不确定度），条件熵代表在某一个条件下，随机变量的复杂度（不确定度）例子：信息增益 = 信息熵 - 条件熵信息增益代表了在一个条件下，信息复杂度（不确定性）减少的程度上面例子的得知身高信息后，信息增益为（我们知道信息熵与条件熵相减就是我们的信息增益）： 1 - 0.103 = 0.897 所以我们可以得出我们在知道了身高这个信息之后，信息增益是0.897

什么是信息熵、条件熵和信息增益 信息增益描述了一个特征带来的信息量的多少，往往用于特征选择信息增益 = 信息熵 - 条件熵一个特征往往会使一个随机变量Y的信息量减少，减少的部分就是信息增益一个例子如图所示，目标值是：playtennis，也就是是否打球有四个特征：天气、温度、湿度、风信息熵信息熵的公式： H(X)=u2212∑i=1np(xi)logp(xi) 以上图为例，设是否打球这一随机变量为Y，则 p(y=yes)=514 p(y=no)=914 所以H(Y)=u2212514u2217log(514)u2212914u2217log(914)=0.6518 条件熵条件熵表示在条件X下Y的信息熵。公式如下： H(Y|X)=∑x∈Xp(x)H(Y|X=x) 在上图的例子中，设humidity湿度为随机变量X 则，p(x=high)=7/14=1/2=p1 p(x=normal)=7/14=1/2=p2 所以，H(Y|X)=p1*H(Y|X=high)+p2*H(Y|X=normal) 而接下来就是计算H(Y|X=high)和H(Y|X=normal) 根据信息熵的计算方法可以得出： H(Y|X=high)=-4/7*log(4/7)-3/7*log(3/7) = 0.6829 H(Y|X=normal)=-1/7*log(1/7)-6/7*log(6/7) = 0.4101 因此，条件熵为：1/2*0.6829+1/2*0.4101=0.5465 信息增益信息增益 = 信息熵 - 条件熵=0.6518-0.5465=0.1053 也就是说，引入了湿度humidity这个变量之后，就使得是否打球这个变量的信息量就从0.6518减小到了0.5465 信息量是描述变量的不确定性的，值越大，就表示这个事件越不确定因此，湿度这个变量的引进，使得这种不确定性降低了，有利于做决定信息增益常用于决策树的构建，和特征选择

信息增益计算公式 信息增益计算公式是：可用下式估算其增益：G（dBi）=10Lg{32000/（2θ3dB，E×2θ3dB，H）}，式中， 2θ3dB，E与2θ3dB，H分别为天线在两个主平面上的波瓣宽度；32000为统计出来的经验数据。可以这样来理解增益的物理含义：在一定的距离上的某点处产生一定大小的信号，如果用理想的无方向性点源作为发射天线，需要100W的输入功率，而用增益为G=13dB=20的某定向天线作为发射天线时，输入功率只需100/20=5W 。换言之，某天线的增益，就其最大辐射方向上的辐射效果来说，与无方向性的理想点源相比，把输入功率放大的倍数。半波对称振子的增益为G=2.15dBi。4个半波对称振子沿垂线上下排列，构成一个垂直四元阵，其增益约为G=8.15dBi( dBi 这个单位表示比较对象是各向均匀辐射的理想点源)。如果以半波对称振子作比较对象，其增益的单位是dBd 。半波对称振子的增益为G=0dBd（因为是自己跟自己比，比值为1 ，取对数得零值。）垂直四元阵，其增益约为G=8.15 –2.15=6dBd 。

信息增益越大越好还是越小越好 信息增益越大越好。信息增益越大，表示信息的不确定度降低的越多，即信息的纯度越高。在决策树的ID3算法中，追求的是信息熵越小越好，信息增益越大越好。ID3中样本分布越均匀，它的信息熵就越大，所以其原则就是样本熵越小越好，也就是信息增益越大越好。信息熵的意思就是一个变量i（就是这里的类别）可能的变化越多（只和值的种类多少以及发生概率有关，反而跟变量具体的取值没有任何关系），它携带的信息量就越大（因为是相加累计），这里就是类别变量i的信息熵越大。系统越是有序，信息熵就越低；反之，一个系统越乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个衡量。二分类问题中，当X的概率P(X)为0.5时，也就是表示变量的不确定性最大，此时的熵也达到最大值1。信息增益：评价一个系统的特征t对系统的影响程度就要用到条件熵，即是特征t存在和不存在的条件下，系统的类别变量i的信息熵。特征t条件下的信息熵与原始信息熵的差值就是这个特征给系统带来的信息增益。信息增益最大的问题还在于它只能考察特征对整个系统的贡献，而不能具体到某个类别上，这就使得它只适合用来做所谓“全局”的特征选择（指所有的类都使用相同的特征集合），而无法做“本地”的特征选择。在概率论和信息论中，信息增益是非对称的，用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时，再使用P进行编码的差异。通常P代表样本或观察值的分布，也有可能是精确计算的理论分布。Q代表一种理论，模型，描述或者对P的近似。

信息增益到底怎么理解呢? 信息增益（Kullback–Leibler divergence）又叫做information divergence，relative entropy 或者KLIC。在概率论和信息论中，信息增益是非对称的，用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时，再使用P进行编码的差异。通常P代表样本或观察值的分布，也有可能是精确计算的理论分布。Q代表一种理论，模型，描述或者对P的近似。扩展资料：信息增益相关延伸：增益一般指对元器件、电路、设备或系统，其电流、电压或功率增加的程度，以分贝(dB)数来规定，即增益的单位一般是分贝（dB），是一个相对值。电子学上常使用对数单位量度增益，并以贝（bel）作为单位：Gain = log10(P2/P1) bel其中P1与P2分别为输入及输出的功率。由于增益的数值通常都很大，因此一般都使用分贝（dB，贝的10分之1）来表示：Gain = 10×log10(P2/P1) dB这就是增益的绝对值与相对值分贝之间的关系。参考资料来源：百度百科-增益参考资料来源：百度百科-信息增益

什么是信息增益 信息增益（Kullback–Leibler divergence）又称information divergence，information gain，relative entropy 或者KLIC。信息增益在概率论和信息论中，信息增益是非对称的，用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时，再使用P进行编码的差异。通常P代表样本或观察值的分布，也有可能是精确计算的理论分布。Q代表一种理论，模型，描述或者对P的近似。尽管信息增益通常被直观地作为是一种度量或距离，但事实上信息增益并不是。就比如信息增益不是对称的，从P到Q的信息增益通常不等于从Q到P的信息增益。信息增益是f增益（f-divergences）的一种特殊情况。在1951年由Solomon Kullback 和Richard Leibler首先提出作为两个分布的直接增益（directed divergence）。它与微积分中的增益不同，但可以从Bregman增益（Bregman divergence）推导得到。

03 决策树 - 量化纯度、信息增益度、停止条件、评估 本章将深入探讨上一章留下的知识点：阅读本章前，请先充分认识到在决策树中的作用和意义。请参考：《 02 决策树 - 概念》决策树的构建是基于样本概率和纯度来进行的，判断数据集是否“纯”可以通过三个公式进行判断：Gini系数、熵(Entropy)、错误率。三个公式的值越大，表示数据越不纯。值越小，表示数据越纯。例：偿还贷款的能力。 P(1) = 7/10 = 0.7；可以偿还的概率； P(2) = 3/10 = 0.3；无法偿还的概率； Error = 1 - max {p(i)} (i =1 ~ n) = 1 - 0.7 = 0.3 如果只有两种分类情况，随着两种情况发生的概率的改变，最后根据三种公式的计算所得：可以发现，三种公式的效果差不多，一般情况使用熵公式。当计算出各个特征属性的量化纯度值后，使用信息增益度来选择出当前数据集的分割特征属性。如果信息增益度值越大，表示在该特征属性上会损失的纯度越大，那么该属性越应该在决策树的上层。计算公式如下： Gain为A在特征对训练数据集D的信息增益，它为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。思考：现在有两个事件A和D，下图黑色部分是特征A给定条件下D的经验条件熵 H(D|A)。显然，Gain= 蓝色区域 = H(D) - H(D|A) 较为理想的分割结果如下，红色方框里是分割后系统剩余的不纯度，这种分割情况下不纯度小了很多：思考完后，请再次理解以下这句话的含义：如果信息增益度值越大，表示在该特征属性上会损失的纯度越大，那么该属性越应该在决策树的上层。决策树构建过程是一个递归的过程，所以必须给定停止条件。 1、大于决策树最大深度。 max_depth 2、小于内部节点再划分所需最小样本数。 min_samples_split 设min_samples_split=3，一个叶子节点a中剩余的样本数位5，另一个叶子节点b中剩余样本数量为2。a可以继续划分，b停止划分。 3、小于叶节点最少样本数。 min_samples_leaf 设min_samples_leaf=3，如果划分出的新叶子节点剩余样本数小于3，那么撤销这步划分。 4、大于最大叶节点数。 max_leaf_nodes 设max_leaf_nodes=5，当划分出超过五个叶子节点时，撤销这步划分操作。 5、小于节点划分不纯度。 min_impurity_split 当Gini系数、熵(Entropy)、错误率，小于 min_impurity_split时，不再生成新的叶子节点。一般不会设置这个参数，依靠上面4个停止条件即可。决策树算法效果评估和一般的分类算法一样，采用混淆矩阵进行计算准确率、召回率、精确率等指标。混淆矩阵参考：《 05 模型训练和测试》也可以采用叶子节点的纯度值综合来评估算法的效果，值越小，效果越好。思考：在决策树中的每一个节点都能够表示一个系统，都能够计算其信息熵(系统稳定程度)。如果将这些信息熵单纯的求和结果会不太理想。比如有100个节点，前99个节点中有很多数据，但是第100个节点只有1条数据。按理说，这第100个节点对于整个系统的不稳定性起了非常小的作用。如果还有一个节点，这个节点里有大量的数据，且结果都为分类0，那么可以认为这个节点的划分比较成功，在计算整个决策树总损失的算法中，该节点要占用一个较大的比例。所以：不能将所有叶子节点的信息熵单纯的求和，还得乘上一个权重值，权重值=当前叶子节点的样本个数/总的样本个数。

猜你想看

恩典头像 iuo 睡魔吉林公务员中国遗传学会扳机社豌豆公主皮纹测试发育生物学葛优瘫 weka 遥感影像男头召回率遥感图像集英社生物进化论杰克与豆茎

大家在看

基因突变有性生殖高尔基体生物工程青霉素细菌工程菌转基因克隆分子克隆基因重组 DNA重组基因对性状的控制外切酶工具酶单核苷酸多核苷酸 bp