MDA/MDD/TDD/DDD/DDDDDDD
posts - 536, comments - 111, trackbacks - 0, articles - 0
  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理

python中文处理办法

Posted on 2008-10-09 21:46 leekiang 阅读(1197) 评论(0)  编辑  收藏 所属分类: python
python处理字符串很容易,但是在处理中文时候需要注意一些问题。
比如:

a = "我们是python爱好者"
print a[0]

只能输出“我”字的前半部分,要想输出整个的我字还需要

b = a[0:2]
print b

才行,很不方便,并且当一段文本中同时有中英文?氖焙蚝苣汛怼?
最好的办法就是转换为unicode。

像这样:

c = unicode(a, "gb2312")
print c[0]

这个时候c的下标对应的就是每一字,不再是字节,并且通过 len(c) 就可以获得字数!
还可以很方便的转换为其他编码,比如转换为 utf-8

d = c.encode("utf-8")

转自 http://www.okpython.com/bbs/viewthread.php?tid=311

只有注册用户登录后才能发表评论。


网站导航: