随笔 - 2  文章 - 1  trackbacks - 0
<2011年6月>
2930311234
567891011
12131415161718
19202122232425
262728293012
3456789

常用链接

留言簿

随笔档案

搜索

  •  

最新评论

阅读排行榜

评论排行榜

ICTCLAS是中科院计算所出品的中文分词程序包,在国内一直有着良好的口碑和很高的使用率。
对于一个测试语句

原字符串:一块勤奋地漂亮的一块钱,/打造经济的航空母舰。ABCD.#$% Hello World!\n又一段文本123辆 !3.0

其中包含了中文,英文,标点符号,乱七八糟符号及阿拉伯数字。


结果:一块/s 勤奋/a 地/u 漂亮/a 的/u 一/m 块/q 钱/n ,/w //nx 打造/v 经济/n 的/u 航空母舰/n 。/w ABCD.#$%/nx Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 辆/q


可以发现在ABCD.#$%/nx的分词结果有点不对,并没有很好的把英文单词和其他字符很好的分开.

在此处我加入了一个验证机制,修改过后的分词结果为:

一块/s 勤奋/a 地/u 漂亮/a 的/u 一/m 块/q 钱/n ,/w //nx 打造/v 经济/n 的/u 航空母舰/n 。/w ABCD/nx .#$%/un Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 辆/q

其中的/un表示未知字符的意思.


posted on 2011-06-23 12:59 coolnothing 阅读(259) 评论(1)  编辑  收藏

FeedBack:
# re: 关于中科院ICTCLAS4J的一点小改动 2011-11-10 16:55 我去~
呵呵 你这篇文章够逗乐的 意淫呢?  回复  更多评论
  

只有注册用户登录后才能发表评论。


网站导航: