复旦大学的中文语料库分为训练集和验证集两部分,两部分的文档数量基本相等,但现在做测评一般都不采用这种预先划分的方法,而多用交叉验证,因此在将训练集与验证集合并之后,得到该语料库的一些基本信息如下:
类别总数量:20
文档总数量:19637
类别名称(类别代码):文档数量
Agriculture(C32):2043篇
Art(C3):1482篇
Communication(C17):52篇
Computer(C19):2715篇
Economy(C34):3201篇
Education(C5):120篇
Electronics(C16):55篇
Energy(C15):65篇
Enviornment(C31):2435篇
History(C7):934篇
Law(C35):103篇
Literature(C4):67篇
Medical(C36):104篇
Military(C37):150篇
Mine(C23):67篇
Philosophy(C6):89篇
Politics(C38):2050篇
Space(C11):1282篇
Sports(C39):2507篇
Transport(C29):116篇
同时,在使用ictclas4j分词包对其进行分词的过程中,发现复旦语料库中存在一些文章会使得ictclas4j报错,其中因为分词包本身字库缺少某些文字,以及一些神秘的字符组合(确实很神秘)会导致分词过程出错,因此能够被成功分词而供后续使用的文档数并不如上面所列这么多,在分词之后,情况如下:
类别总数量:20
文档总数量:18185
类别名称(类别代码):文档数量
Agriculture(C32):1949篇
Art(C3):1237篇
Communication(C17):52篇
Computer(C19):2591篇
Economy(C34):2912篇
Education(C5):111篇
Electronics(C16):51篇
Energy(C15):63篇
Environment(C31):2347篇
History(C7):708篇
Law(C35):103篇
Literature(C4):65篇
Medical(C36):98篇
Military(C37):147篇
Mine(C23):63篇
Philosophy(C6):86篇
Politics(C38):1920篇
Space(C11):1226篇
Sports(C39):2344篇
Transport(C29):112篇
在已分词后的语料库里,可以看出这样几个特点,一,文档总数比未分词的版本少了1448篇(可见ictclas4j的错误还是满普遍的);第二,文档数量分布仍不均衡,最多的经济类文章有2912篇,而最少的电子类与通信类文章仅有51篇与52篇,往好的方向说可以考察你所开发的系统如何应对数据集偏斜的问题,往坏的方向说给要上线的系统作训练集恐怕不太合适。
在下一篇文章中,我将进一步总结词频统计的结果.