PorterStemFilter
所谓
Stemming,可以称为
词根化,这里有个
overview。在英语这样的拉丁语系里面,单词有多种变形。比如加上-ed、-ing、-ly等等。在分词的时候,如果能够把这些变形单词的词根找出了,对搜索结果是很有帮助的。Stemming算法有很多了,三大主流算法是
Porter stemming algorithm、
Lovins stemming algorithm、
Lancaster (Paice/Husk) stemming algorithm,还有一些改进的或其它的算法。这个PorterStemFilter里面调用的一个PorterStemmer就是
Porter Stemming algorithm的一个实现。