复旦大学的中文语料库分为训练集和验证集两部分,两部分的文档数量基本相等,但现在做测评一般都不采用这种预先划分的方法,而多用交叉验证,因此在将训练集与验证集合并之后,得到该语料库的一些基本信息如下:

类别总数量:20

文档总数量:19637

       类别名称(类别代码):文档数量

       Agriculture(C32):2043

       Art(C3):1482

       Communication(C17):52

       Computer(C19):2715

       Economy(C34):3201

       Education(C5):120

       Electronics(C16):55

       Energy(C15):65

       Enviornment(C31):2435

       History(C7):934

       Law(C35):103

       Literature(C4):67

       Medical(C36):104

       Military(C37):150

       Mine(C23):67

       Philosophy(C6):89

       Politics(C38):2050

       Space(C11):1282

       Sports(C39):2507

Transport(C29):116

同时,在使用ictclas4j分词包对其进行分词的过程中,发现复旦语料库中存在一些文章会使得ictclas4j报错,其中因为分词包本身字库缺少某些文字,以及一些神秘的字符组合(确实很神秘)会导致分词过程出错,因此能够被成功分词而供后续使用的文档数并不如上面所列这么多,在分词之后,情况如下:

类别总数量:20

文档总数量:18185

    类别名称(类别代码):文档数量

    Agriculture(C32):1949

    Art(C3):1237

    Communication(C17):52

    Computer(C19):2591

    Economy(C34):2912

    Education(C5):111

    Electronics(C16):51

    Energy(C15):63

    Environment(C31):2347

    History(C7):708

    Law(C35):103

    Literature(C4):65

    Medical(C36):98

    Military(C37):147

    Mine(C23):63

    Philosophy(C6):86

    Politics(C38):1920

    Space(C11):1226

Sports(C39):2344

Transport(C29):112

在已分词后的语料库里,可以看出这样几个特点,,文档总数比未分词的版本少了1448(可见ictclas4j的错误还是满普遍的);第二,文档数量分布仍不均衡,最多的经济类文章有2912篇,而最少的电子类与通信类文章仅有51篇与52篇,往好的方向说可以考察你所开发的系统如何应对数据集偏斜的问题,往坏的方向说给要上线的系统作训练集恐怕不太合适。

在下一篇文章中,我将进一步总结词频统计的结果.