从这看出Lucene只支持到了BMP(3 bytes utf-8),估计是因为J2SE 1.4中的字符处理是基于Unicode 3.0标准的。
目前完整的unicode需要4 bytes utf-8才能实现。
参考
http://zh.wikipedia.org/wiki/UTF-8
http://www.blogjava.net/tim-wu/archive/2008/01/25/177788.html
另:
Java 1.0 supports Unicode version 1.1.
Java 1.1 onwards supports Unicode version 2.0.
J2SE 1.4中的字符处理是基于Unicode 3.0标准的。
J2SE v 1.5 supports Unicode 4.0 character set.
而:
Unicode 3.0:1999年九月;涵蓋了來自ISO 10646-1的十六位元通用字元集(UCS)基本多文種平面(Basic Multilingual Plane)
Unicode 3.1:2001年三月;新增從ISO 10646-2定義的輔助平面(Supplementary Planes)