使用开方检验能够修正文档频率作为特征选择手段的一些不足,在对复旦大学语料库作过一系列处理之后,为20个类别分别计算各自特征的开方值并排序(开方值越大则说明越应该作为特征被选中)之后,可以看出很多有意思的东西.记得在这一系列文章的part2中提到过仅仅使用词频来排序的时候,”个”这个词如明星般的在很多类别中都频繁出现在排名前十的位置上,但这个词实际上没有表意功能,对分类贡献不大,是理应被特征选择程序筛选掉的.使用开方检验方法后,我们惊喜的发现(读者:切!前人早都发现无数次了……):“个”消失了!
我稍微摘选结果中的几个类别在词频排序和开方值排序之间的比较,大家一起来瞅瞅。(前面也说过了,使用词频排序和使用文档频率情况大体相同,因此不再单独列出)
历史类别(History)
词频排序
|
开方值排序
|
历史 词频:24303
中国 词频:15146
人
词频:11707
社会 词频:8655
发展 词频:8540
研究 词频:8007
文化 词频:7607
大
词频:6748
新
词频:6706
到
词频:6537
说
词频:6462
种
词频:5694
问题 词频:5304
政治 词频:5178
文学 词频:5176
年
词频:4830
经济 词频:4810
思想 词频:4550
这种 词频:4476
个
词频:4276
|
近代史词频:350
史学
词频:2566
现代史词频:164
史料
词频:529
历史学词频:771
世界史词频:169
史实
词频:294
战争
词频:2095
封建
词频:1156
历史学词频:386
人物
词频:2399
统治
词频:1056
侵略
词频:501
记载
词频:625
历史
词频:24303
斗争
词频:1731
帝国主义词频:655
清政府词频:289
王朝
词频:370
民族
词频:4168
|
我列出了历史类文章中两种方法排名前二十的词汇,可以发现使用词频(或者文档频率)统计的结果纯粹无聊(简直无聊,特别无聊),除了“历史”,“社会”,“发展”听着还像那么回事以外,什么“说”,“种”,“年”这样的词真该统统杀光光。
用了开方检验就果然不一样,看看“史料”啊,“记载”呀,“王朝”呀,多正儿八经的历史词汇!我真是太喜欢开方检验啦!(笑)
当然结果也未必就十全十美了,我举个计算机的例子给你看。
计算机类别(Computer)
词频排序
|
开方值排序
|
系统词频:45496
控制词频:21937
图
词频:20396
方法词频:20073
个
词频:19661
算法词频:18879
数据词频:17691
模型词频:17182
网络词频:16980
进行词频:16406
问题词频:14617
应用词频:13883
对象词频:13656
信息词频:13468
结构词频:12658
研究词频:12308
实现词频:11331
过程词频:11293
设计词频:10713
种
词频:10506
|
算法
词频:18879
自动化词频:2674
计算机词频:7569
函数
词频:9932
定义
词频:9817
关键词词频:1956
软件
词频:6189
引言
词频:937
集合
词频:3717
输入
词频:6385
摘
词频:1540
定理
词频:4487
模型
词频:17182
用户
词频:10053
参数
词频:8491
导师
词频:969
向量
词频:2658
期
词频:213
输出
词频:6149
矩阵
词频:5431
|
看见”摘”这个词了么?居然出现在第11位,现在我还要告诉你,如果不是在去停止词的阶段把”要”字给去掉了,”要”字也会出现在”摘”附近的位置上,聪明的读者应该能大致猜出几分原因了吧.没错,到复旦语料库的计算机类文档中稍稍察看就会发现,大量的文档都有类似这样的格式:
计算机应用
COMPUTER APPLICATIONS
1999年第19卷第6期 Vol.19 No.6 1999
一种基于智能Agent的协同工作模型
朱晓芸 何钦铭 王申康
摘 要 计算机支持的协同工作(CSCW)需要研究出适应各种协同工作方式的灵活、开放、可扩充的模型结构。本文以分布式人工智能研究中的智能Agent为系统基本单元,提出一种基于智能Agent的协同工作模型,给出了它的具体实现。
关键词 计算机支持的协同工作,智能Agent,分布式人工智能
AN INTELLIGENT AGENT
BASED COLLABORATIVE WORK MODEL
Zhu XiaoyunHe QinmingWang Shenkang
看到”摘要”的位置了么?一来复旦语料库计算机类的文档大都是这类期刊文献的形式,因此”摘要”这个词频繁出现;二来其他类别的语料虽然也都有大量以文献作为来源的文档,但甚少用到”摘要”这个词;最后一点,注意到原文中”摘要”两个字是被空格分开的,只有我们这些地球的主宰者,全能的人类才能看出他们是一个词,而我们使用的分词程序会毫不留情的将其判断为”摘”和”要”两个词.这三点综合作用的结果,就使得我们的程序认为”摘”这个词对计算机类文档有很强的代表性(当然,我们自己心里知道,这纯属无稽之谈),从而入选了特征的TOP20。
以上分析给我们的启示是:作为训练集的文档来源一定要广泛,如果计算机类的文章还包括教科书,网页,个人博客的内容,显然就不会出现“摘”字这种笑话;另一方面,再一次重申,文本分类就应该是只依据文本的内容,而不应该包含文件的编码,文章格式,发表时间等外部信息,“摘”字的笑话多少也是因为文章的格式(在“摘”和“要”之间总有空格)影响了分词程序的判断而致。
关于复旦语料库所说的这些东西有点杂,有机会的话我会重新整理,再结合特征选择的具体方法,把特征选择的过程说说清楚。
以上。