词的文档频率(DF,
即一个词在多少篇文档中出现)
虽然并不用于真正的特征选择,
但是作为特征选择前的预处理手段还是经常被使用,
因为出现次数太少的词(
低频词,
或者叫生僻词)
往往是表意能力很差的词,
更极端的情况下,
那种在几万篇文档中却只出现几次的词更有可能是作者的笔误(
即创造了一个不存在的词),
使用它的更大好处还在于可以大大消减文档集中需要处理的词汇数量.
请看以下的数据,
在上一篇文章中对复旦语料库进行分词,
去停止词,
去无用词性的词的基础上,
再进行一次根据DF
的处理,
去除所有文档频率小于等于3
的词,
得到的对比结果如下.
文档频率筛选前
|
文档频率筛选后
|
总词数116558
类别名称:Agriculture
总词数:29163
类别名称:Art
总词数:40816
类别名称:Communication
总词数:2283
类别名称:Computer
总词数:19340
类别名称:Economy
总词数:37021
类别名称:Education
总词数:5719
类别名称:Electronics
总词数:2693
类别名称:Energy
总词数:2848
类别名称:Environment
总词数:25155
类别名称:History
总词数:47205
类别名称:Law
总词数:3834
类别名称:Literature
总词数:5844
类别名称:Medical
总词数:3877
类别名称:Military
总词数:4615
类别名称:Mine
总词数:3708
类别名称:Philosophy
总词数:5190
类别名称:Politics
总词数:35292
类别名称:Space
总词数:14557
类别名称:Sports
总词数:42665
类别名称:Transport
总词数:4644
|
总词数50283
类别名称:Agriculture
总词数:23258
类别名称:Art
总词数:30899
类别名称:Communication
总词数:2207
类别名称:Computer
总词数:15545
类别名称:Economy
总词数:28363
类别名称:Education
总词数:5437
类别名称:Electronics
总词数:2604
类别名称:Energy
总词数:2702
类别名称:Environment
总词数:19781
类别名称:History
总词数:31436
类别名称:Law
总词数:3656
类别名称:Literature
总词数:5500
类别名称:Medical
总词数:3566
类别名称:Military
总词数:4256
类别名称:Mine
总词数:3507
类别名称:Philosophy
总词数:4968
类别名称:Politics
总词数:26046
类别名称:Space
总词数:12136
类别名称:Sports
总词数:30803
类别名称:Transport
总词数:4276
|
怎么样?总词数从116558下降到50283,减少了一多半.可见生僻词还是广泛存在的.而具体到各个类别上也各不相同.减少的比较少的典型类别例如法律类,仅仅消减掉了4.6%的词汇,而历史类整整去除了33.4%!这倒也不难想象,因为法律概念一般有标准的名称和说法,文章也都有通用的格式或成文的套路遵循,作者本身发挥的余地不大.而历史类文章包含大量的人名地名和事件名称,这些名称出现数量多但每一个出现的次数相对较少,而同时人名地名也很难作为区分文章主题的依据(出现”诸葛”就一定是说三国时期的事情么?我们计算所有位老师就姓诸葛,还恰好是搞自然语言处理方面的,呵呵),筛掉它们我们也不心疼.
有了这一步处理,又可以为开方检验的计算增添不少方便.
(音乐再次响起,幕布再次缓慢拉上,灯光渐暗)