首页 相关文章 文本分类入门(十一)特征选择方法之信息增益

文本分类入门(十一)特征选择方法之信息增益

  前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。

  在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。

  才因此先回忆一下信息论中有关信息量(就是熵)的定义。说有这么一个变量X,它可能的取值有n多种,分别是x1,x2,,xn,每一种取到的概率分别是P1,P2,,Pn,那么X的熵就定义为:

  意思就是一个变量可能的变化越多(反而跟变量具体的取值没有任何关系,只和值的种类多少以及发生概率有关),它携带的信息量就越大(因此我一直觉得我们的政策法规信息量非常大,因为它变化很多,基本朝令夕改,笑)。

...[ 查看全文 ]

2016-02-19 标签:

文本分类入门(十一)特征选择方法之信息增益的相关文章

手机页面
收藏网站 回到头部