我的蛋壳

倡导自由、开放、分享的Java技术社区 http://www.javaread.com

 

好东西,是要和朋友分享的哦:Ictclas4j中文分词系统

       Ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复杂度,旨在为广大的中文分词爱好者一个更好的学习机会。

关于ICTCLAS分词系统的讨论,可以访问google group关于ictclas分词系统的讨论组http://groups.google.com/group/ictclas

另外“春江润楠”大哥对它还做了一些改造,大家可以参阅一下:http://chenyr.spaces.live.com/blog/cns!7BF57CE83A7A863D!394.entry

下载地址:http://code.google.com/p/ictclas4j/downloads/list

另外还有个挺不错的开源项目MMSeg,用起来也蛮简单,分词的正确度还不错,有兴趣的朋友也可以参考一下:

MMSeg,挺不错的一个开放源代码的中文分词软件包



本文作者:javaread.com

posted on 2008-08-02 22:01 javaread.com 阅读(1509) 评论(1)  编辑  收藏

评论

# re: 好东西,是要和朋友分享的哦:Ictclas4j中文分词系统 2008-08-02 22:06 kenlee14

还不错,不过相较之下,我更喜欢MMSeg,提供了丰富的chunk和rule,一般都可以满足项目的需求。如果对词库结构不满意的话,还可以变更词库结构,源代码只要简单修改存储对象和读取方式就可以啦。
不过--还没弄明白chars.lex这个词库文件是来干嘛的,研究ing。  回复  更多评论   


只有注册用户登录后才能发表评论。


网站导航:
 

导航

统计

常用链接

留言簿(3)

随笔档案

Java

友情链接

搜索

最新评论

阅读排行榜

评论排行榜