首页 相关文章 文本分类入门(十)特征选择算法之开方检验

文本分类入门(十)特征选择算法之开方检验

前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。

  大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在这捣什么乱?)

  开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(行话就叫做原假设),然后观察实际值(也可以叫做观察值)与理论值(这个理论值是指如果两者确实独立的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时就接受原假设;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或者测量不精确所致,我们就认为两者实际上是相关的,即否定原假设,而接受备择假设。

  那么用什么来衡量偏差程度呢?假设理论值为E(这也是数学期望的符号哦),实...[ 查看全文 ]

2016-02-19 标签:

文本分类入门(十)特征选择算法之开方检验的相关文章

手机页面
收藏网站 回到头部