ICTCLAS是中科院计算所出品的中文分词程序包,在国内一直有着良好的口碑和很高的使用率。
对于一个测试语句
原字符串:一块勤奋地漂亮的一块钱,/打造经济的航空母舰。ABCD.#$% Hello World!\n又一段文本123辆 !3.0
其中包含了中文,英文,标点符号,乱七八糟符号及阿拉伯数字。
结果:一块/s 勤奋/a 地/u 漂亮/a 的/u 一/m 块/q 钱/n ,/w //nx 打造/v 经济/n 的/u 航空母舰/n 。/w ABCD.#$%/nx Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 辆/q
可以发现在ABCD.#$%/nx的分词结果有点不对,并没有很好的把英文单词和其他字符很好的分开.
在此处我加入了一个验证机制,修改过后的分词结果为:
一块/s 勤奋/a 地/u 漂亮/a 的/u 一/m 块/q 钱/n ,/w //nx 打造/v 经济/n 的/u 航空母舰/n 。/w ABCD/nx .#$%/un Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 辆/q
其中的/un表示未知字符的意思.
posted on 2011-06-23 12:59
coolnothing 阅读(259)
评论(1) 编辑 收藏