使用开方检验能够修正文档频率作为特征选择手段的一些不足,在对复旦大学语料库作过一系列处理之后,20个类别分别计算各自特征的开方值并排序(开方值越大则说明越应该作为特征被选中)之后,可以看出很多有意思的东西.记得在这一系列文章的part2中提到过仅仅使用词频来排序的时候,”这个词如明星般的在很多类别中都频繁出现在排名前十的位置上,但这个词实际上没有表意功能,对分类贡献不大,是理应被特征选择程序筛选掉的.使用开方检验方法后,我们惊喜的发现(读者:!前人早都发现无数次了……):“个”消失了!

我稍微摘选结果中的几个类别在词频排序和开方值排序之间的比较,大家一起来瞅瞅。(前面也说过了,使用词频排序和使用文档频率情况大体相同,因此不再单独列出)

历史类别(History

词频排序

开方值排序

历史 词频:24303

中国 词频:15146

    词频:11707

社会 词频:8655

发展 词频:8540

研究 词频:8007

文化 词频:7607

    词频:6748

    词频:6706

    词频:6537

    词频:6462

    词频:5694

问题 词频:5304

政治 词频:5178

文学 词频:5176

    词频:4830

经济 词频:4810

思想 词频:4550

这种 词频:4476

    词频:4276

近代史词频:350

史学   词频:2566

现代史词频:164

史料   词频:529

历史学词频:771

世界史词频:169

史实   词频:294

战争   词频:2095

封建   词频:1156

历史学词频:386

人物   词频:2399

统治   词频:1056

侵略   词频:501

记载   词频:625

历史   词频:24303

斗争   词频:1731

帝国主义词频:655

清政府词频:289

王朝   词频:370

民族   词频:4168

我列出了历史类文章中两种方法排名前二十的词汇,可以发现使用词频(或者文档频率)统计的结果纯粹无聊(简直无聊,特别无聊),除了“历史”,“社会”,“发展”听着还像那么回事以外,什么“说”,“种”,“年”这样的词真该统统杀光光。

用了开方检验就果然不一样,看看“史料”啊,“记载”呀,“王朝”呀,多正儿八经的历史词汇!我真是太喜欢开方检验啦!(笑)

当然结果也未必就十全十美了,我举个计算机的例子给你看。

计算机类别(Computer

词频排序

开方值排序

系统词频:45496

控制词频:21937

   词频:20396

方法词频:20073

   词频:19661

算法词频:18879

数据词频:17691

模型词频:17182

网络词频:16980

进行词频:16406

问题词频:14617

应用词频:13883

对象词频:13656

信息词频:13468

结构词频:12658

研究词频:12308

实现词频:11331

过程词频:11293

设计词频:10713

   词频:10506

算法   词频:18879

自动化词频:2674

计算机词频:7569

函数   词频:9932

定义   词频:9817

关键词词频:1956

软件   词频:6189

引言   词频:937

集合   词频:3717

输入   词频:6385

     词频:1540

定理   词频:4487

模型   词频:17182

用户   词频:10053

参数   词频:8491

导师   词频:969

向量   词频:2658

     词频:213

输出   词频:6149

矩阵   词频:5431

看见这个词了么?居然出现在第11,现在我还要告诉你,如果不是在去停止词的阶段把字给去掉了,”字也会出现在附近的位置上,聪明的读者应该能大致猜出几分原因了吧.没错,到复旦语料库的计算机类文档中稍稍察看就会发现,大量的文档都有类似这样的格式:

计算机应用

COMPUTER APPLICATIONS

1999196 Vol.19 No.6 1999

一种基于智能Agent的协同工作模型

朱晓芸 何钦铭 王申康

  摘 要 计算机支持的协同工作(CSCW)需要研究出适应各种协同工作方式的灵活、开放、可扩充的模型结构。本文以分布式人工智能研究中的智能Agent为系统基本单元,提出一种基于智能Agent的协同工作模型,给出了它的具体实现。

  关键词 计算机支持的协同工作,智能Agent,分布式人工智能

AN INTELLIGENT AGENT BASED COLLABORATIVE WORK MODEL

Zhu XiaoyunHe QinmingWang Shenkang

看到摘要的位置了么?一来复旦语料库计算机类的文档大都是这类期刊文献的形式,因此摘要这个词频繁出现;二来其他类别的语料虽然也都有大量以文献作为来源的文档,但甚少用到摘要这个词;最后一点,注意到原文中摘要两个字是被空格分开的,只有我们这些地球的主宰者,全能的人类才能看出他们是一个词,而我们使用的分词程序会毫不留情的将其判断为两个词.这三点综合作用的结果,就使得我们的程序认为这个词对计算机类文档有很强的代表性(当然,我们自己心里知道,这纯属无稽之谈),从而入选了特征的TOP20

以上分析给我们的启示是:作为训练集的文档来源一定要广泛,如果计算机类的文章还包括教科书,网页,个人博客的内容,显然就不会出现“摘”字这种笑话;另一方面,再一次重申,文本分类就应该是只依据文本的内容,而不应该包含文件的编码,文章格式,发表时间等外部信息,“摘”字的笑话多少也是因为文章的格式(在“摘”和“要”之间总有空格)影响了分词程序的判断而致。

关于复旦语料库所说的这些东西有点杂,有机会的话我会重新整理,再结合特征选择的具体方法,把特征选择的过程说说清楚。

以上。