随笔-16  评论-50  文章-2  trackbacks-0

摘要:中文一般都是按拼音来排序的。但Java中的String类是按Unicode编码存储数据的,因此,String类也是按Unicode编码的大小来排序的。Sun公司提供一个Collator类来重新按不同的规则对字符串排序,但Collator对中文的排序方式只是不严格的拼音排序法。Microsoft的Excel和Sql Server实现了按拼音排序的功能,就比Collator实现的好多了。那如何在Java中实现类似Microsoft的拼音排序的方式呢?


作者:Jeff 发表于:2007-12-19 08:30 最后更新于: 2007年12月21日 12:33
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本版权声明
http://www.blogjava.net/jeff-lau/archive/2007/12/19/168637.html


合并了

已经将《中文排序--笔画》和《中文排序--汉语拼音》修改并合并《中文排序》中。这里只保留最后的代码。实现的原理和方法请见中文排序

/**
  * @author Jeff
  *
  * Copyright (c) 复制或转载本文,请保留该注释。
  */
package chinese.utility;

import java.util.Comparator;
import net.sourceforge.pinyin4j.PinyinHelper;

public class PinyinComparator implements Comparator<String> {

    public int compare(String o1, String o2) {

        for (int i = 0; i < o1.length() && i < o2.length(); i++) {

            int codePoint1 = o1.charAt(i);
            int codePoint2 = o2.charAt(i);

            if (Character.isSupplementaryCodePoint(codePoint1)
                    || Character.isSupplementaryCodePoint(codePoint2)) {
                i++;
            }

            if (codePoint1 != codePoint2) {
                if (Character.isSupplementaryCodePoint(codePoint1)
                        || Character.isSupplementaryCodePoint(codePoint2)) {
                    return codePoint1 - codePoint2;
                }

                String pinyin1 = pinyin((char) codePoint1);
                String pinyin2 = pinyin((char) codePoint2);

                if (pinyin1 != null && pinyin2 != null) { // 两个字符都是汉字
                    if (!pinyin1.equals(pinyin2)) {
                        return pinyin1.compareTo(pinyin2);
                    }
                } else {
                    return codePoint1 - codePoint2;
                }
            }
        }
        return o1.length() - o2.length();
    }

    /**
     * 字符的拼音,多音字就得到第一个拼音。不是汉字,就return null。
     */
    private String pinyin(char c) {
        String[] pinyins = PinyinHelper.toHanyuPinyinStringArray(c);
        if (pinyins == null) {
            return null;
        }
        return pinyins[0];
    }
}

posted on 2007-12-19 08:30 Jeff Lau 阅读(5519) 评论(3)  编辑  收藏 所属分类: 跟老刘学Java

评论:
# re: 中文排序 - 汉语拼音[未登录] 2007-12-19 09:04 | stone
有意思,受教了  回复  更多评论
  
# re: 中文排序 - 汉语拼音 2007-12-19 10:05 | 千里冰封
呵呵,有意思  回复  更多评论
  
# re: 中文排序 - 汉语拼音[未登录] 2012-06-11 16:58 | 111
很干净
飞过海
啊啊  回复  更多评论
  

只有注册用户登录后才能发表评论。


网站导航: