上QQ阅读APP看书,第一时间看更新
4.3 特征子集的选择
特征子集的选择就是从原有输入空间,即抽取出的所有特征项的集合,选择一个子集合组成新的输入空间。输入空间也称为特征集合。选择的标准是要求这个子集尽可能完整地保留文本类别区分能力,而舍弃那些对文本分类无贡献的特征项。
机器学习领域存在多种特征选择方法。Guyon等人对特征子集选择进行了详尽讨论,分析比较了目前常用的三种特征选择方式:过滤(Filter)、组合(Wrappers)与嵌入(Embedded)。文本分类问题由于训练样本多、特征维数高的特点决定了目前在实际应用中以过滤方式为主,并且采用的是评级方式,即对每个特征项进行单独的判断(Single Feature Ranking),以决定该特征项是否会保留下来,而没有考虑其他更全面的搜索方式,以降低运算量。在对所有特征项进行单独评价后,可以选择给定评价函数大于某个阈值的子集组成新的特征集合,也可用评价函数值最大的特定数量特征项来组成特征集。
特征子集的选择涉及文本中的定量信息,一些相关参数定义见表4-1。
表4-1 文档及特征项各参数的含义
可以知道,参数间满足如下关系:
式(4-1)表示样本总数等于各类别样本数之和。式(4-2)表示对只包含任一特征项t的样本集合也满足类似的关系。
式(4-3)表示n(t)和互补,式(4-4)表示这种关系也适用于任意给定的文本类别。
式(4-5)和式(4-6)给出了tf和tf(t)的计算方法。其中,m为特征项的个数。
利用这些参数,结合统计、信息论等学科知识,即可进行特征子集的选择。最简单的方式是停用词过滤。