csusky

常用链接

统计

最新评论

2008年4月16日 #

异步IO的关闭事件

JAVA SOCKET只定义了四种事件

public static final int OP_READ = 1 << 0;
public static final int OP_WRITE = 1 << 2;
public static final int OP_CONNECT = 1 << 3;
public static final int OP_ACCEPT = 1 << 4;

是没有关闭事件的,我们怎么判断一个连接是否关闭呢?
如果你的selector注册了一个OP_READ事件,那么在连接关闭的时候将会产生一个OP_READ事件
也就是说本来阻塞的selector此时将会被唤醒,但是如果试图在此事件的通道中读取数据将会返回-1
如下:

Set<SelectionKey> readyKeys = selector.selectedKeys();

= readyKeys.iterator()

SelectionKey key 
= (SelectionKey)i.next();

if (operation == SelectionKey.OP_READ &&
                         key.isReadable())
                
{
                    ReadableByteChannel incomingChannel 
= (ReadableByteChannel)key.channel(); 
//此时将会得到-1,表明该链接已关闭
int n = incomingChannel.read(readBuffer);
}
此时我们需要取消该KEY 如下:
if (n == -1)
            
{
                key.cancel();
                  //关闭输入输出 
                  sc.socket().shutdownOutput();
                  sc.socket().shutdownInput();
                   //关闭SOCKET
                   sc.socket().close();
                  //关闭通道
                   incomingChannel.close();
            }

posted @ 2009-11-10 22:28 晓宇 阅读(412) | 评论 (1)编辑 收藏

ExecutorFilter

1 . 用Executors构造一个新的线程池
ExecutorService executor = Executors.newCachedThreadPool();

方法 newCachedThreadPool();
创建一个可根据需要创建新线程的线程池,但是在以前构造的线程可用时将重用它们,并在需要时使用提供的 ThreadFactory 创建新线程。
2. 用构造的线程池创建ExecutorFilter
ExecutorFilter es= new ExecutorFilter(executor));

在ExecutorFilter内部:
只需要将相应的事件分发到到线程池的相应线程即可,但是SessionCreated事件只能在主线程中,不能分发
触发方法
1 .
首先构造一个IoFilterEvent,这个IoFilterEvent包含1、事件的类型,2、下一个过滤器
然后触发该时间的处理方法。
 if (eventTypes.contains(IoEventType.SESSION_OPENED)) {
            fireEvent(
new IoFilterEvent(nextFilter, IoEventType.SESSION_OPENED,
                    session, 
null));
        }

2 .
从线程池中取出一个线程执行事件处理
protected void fireEvent(IoFilterEvent event) {
        getExecutor().execute(event);
    }


在构造ExecutorFilter 时如果没有传入IoEventType则默认只对如下几种几件感兴趣
EXCEPTION_CAUGHT
MESSAGE_RECEIVED
MESSAGE_SENT
SESSION_CLOSED
SESSION_IDLE
SESSION_OPENED
当然还需要覆盖相应的事件处理方法 如上所示

posted @ 2008-12-12 11:33 晓宇 阅读(1545) | 评论 (0)编辑 收藏

ORACLE的块大小

参数db_block_size;
这个参数只能设置成底层操作系统物理块大小的整数倍,最好是2的n次方倍。
如WINDOWS下4KB,8KB,16KB
且该参数需要在建库的时候指定,一旦指定不能更改。
虽然在ORACLE9I以上可以指定表空间的数据库大小,允许同时使用包括非默认大小在内的数据库块大小。不过需要设置指定大小数据块的buffer_cache.

小的块:
小的块降低块竞争,因为每个块中的行较少.
小的块对于小的行有益.
小的块对于随意的访问较好.如果一个块不太可能在读入内存后被修改,那么块的大小越小使用buffer cache越有效率。当内存资源很珍贵时尤为重要,因为数据库的buffer cache是被限制大小的。
劣势:
小块的管理消费相对大.
因为行的大小你可能只在块中存储很小数目的行,这可能导致额外的I/O。
小块可能导致更多的索引块被读取

大的块
好处:
更少的管理消费和更多存储数据的空间.
大块对于有顺序的读取较好.  譬如说全表扫描
大块对很大的行较好
大块改进了索引读取的性能.大的块可以在一个块中容纳更多的索引条目,降低了大的索引级的数量.越少的index level意味着在遍历索引分支的时候越少的I/O。
劣势:
大块不适合在OLTP中用作索引块,因为它们增加了在索引叶块上的块竞争。
如果你是随意的访问小的行并有大的块,buffer cache就被浪费了。例如,8 KB的block size 和50 byte row size,你浪费了7,950



 

posted @ 2008-11-25 15:45 晓宇 阅读(1757) | 评论 (0)编辑 收藏

TIPS

将进酒  杯莫停  -------> 亭名:  悲默亭

全球通史

《诗经·采薇》

昔我往矣,杨柳依依 今我来思,雨雪霏霏

posted @ 2008-11-10 16:31 晓宇 阅读(178) | 评论 (0)编辑 收藏

SPRING整合IBMMQ实现全局事物

     摘要: <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans"     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance...  阅读全文

posted @ 2008-10-27 17:01 晓宇 阅读(2405) | 评论 (0)编辑 收藏

Lucene的切词 analysis包

在搜索引擎中,切词语是一个重要的部分,其中包括专有名词的提取、词的分割、词的格式化等等。
TokenStream 类几乎是所有这些类的基类
有两个需要被子类实现的方法Token next() 和 close()
首先来看analysis包,这个包主要是提供一些简单的词汇化处理
Tokenizer结尾的类是将要处理的字符串进行分割成Token流,而根据分割的依据的又产生了以下几个Tokenizer类
首先Tokenizer类是所有以Tokenizer结尾的类的基
然后是CharTokenizer,所有的以Tokenizer结尾的类都是从这个类继承的
这个类中有一个抽象方法
  protected abstract boolean isTokenChar(char c);
另外一个需要被子类覆写的方法
  protected char normalize(char c) {};
是对单个字符进行处理的方法譬如说将英文字母全部转化为小写

还有一个变量
protected Reader input;
这个读取器是这些类所处理的数据的   数据源
输入一个Reader ,产生一个Token流


这个方法是是否进行切分的依据,依次读取char流,然后用这个方法对每个char进行检测,如果返回false则将预先存储在
词汇缓冲区中的char数组作为一个Token返回
LetterTokenizer :
      protected boolean isTokenChar(char c) {
              return Character.isLetter(c);
      }
WhitespaceTokenizer:
      protected boolean isTokenChar(char c) {
              return !Character.isWhitespace(c);
      } 
LowerCaseTokenizer extends LetterTokenizer:
protected char normalize(char c) {
      return Character.toLowerCase(c);
   }

   在构造函数中调用super(in);进行和 LetterTokenizer同样的操作,但是在词汇化之前所有的词都转化为小写了
 
然后是以Filter结尾的类,这个类簇主要是对已经词汇化的Token流进行进一步的处理
 输入是Token流 , 输出仍然是Token流。
TokenFilter extends TokenStream  是所有这些类的父类
protected TokenStream input;
在TokenFilter 中有一个TokenStream 变量,是Filter类簇处理的数据源,而Filter类簇又是继承了TokenStream 类的
有一个public final Token next()方法,这个方法以TokenStream.next()产生的Token流 为处理源,产生的仍然是Token流
只不过中间有一些处理的过程
LowerCaseFilter:将所有的Token流的转化为小写
     t.termText = t.termText.toLowerCase();
StopFilter:过滤掉一些停止词,这些停止词由构造函数指定
     for (Token token = input.next(); token != null; token = input.next())
      if (!stopWords.contains(token.termText))
        return token;


比较一下Tokenizer类簇和Filter类簇,可以知道
Tokenizer类簇主要是对输入的Reader流,实际上是字符流按照一定的规则进行分割,产生出Token流
其输入是字符串的Reader流形式,输出是Token流

Filter类簇主要是对输入的Token流进行更进一步的处理,如去除停止词,转化为小写
主要为一些格式化操作。
由于Filter类簇的输入输出相同,所以可以嵌套几个不同的Filter类,以达到预期的处理目的。
前一个Filter类的输出作为后一个Filter类的输入
而Tokenizer类簇由于输入输出不同,所以不能嵌套







posted @ 2008-05-30 14:47 晓宇 阅读(1020) | 评论 (1)编辑 收藏

JDK1.5的自动装箱功能

在JAVA JDK1.5以后具有的自动装箱与拆箱的功能,所谓的自动装箱
与拆箱也就是把基本的数据类型自动的转为封装类型。

如:自动装箱,它可以直接把基本类型赋值给封装类型

Integer num = 10 ;

Double d = 2d ;

自动拆箱,它可以把封装类型赋值给基本类型

int num = new Integer(10);

double d = new Double(2d);

自动装箱与拆箱的功能事实上是编译器来帮您的忙,编译器在编译时期依您所编写的语法,决定是否进行装箱或拆箱动作。在自动装箱时对于值从-128到127之间的值,它们被装箱为Integer对象后,会存在内存中被重用,所以范例4.6中使用==进行比较时,i1 与 i2实际上参考至同一个对象。如果超过了从-128到127之间的值,被装箱后的Integer对象并不会被重用,即相当于每次装箱时都新建一个Integer对象,所以范例4.7使用==进行比较时,i1与i2参考的是不同的对象。所以不要过分依赖自动装箱与拆箱,您还是必须知道基本数据类型与对象的差异。

    public void testBoxingUnboxing() {

        int i = 10;

        Integer inta = i;

        inta++;

        inta += 1;

        int j = inta;

        assertTrue(j == inta);结果是:true//junit里面的方法

        assertTrue(j == new Integer(j)); 结果是:true

        assertTrue(10000 == new Integer(10000)); 结果是:true

    }

Integer i = 100.相当于编译器自动为您作以下的语法编译:

Integer i = new Integer(100).所以自动装箱与拆箱的功能是所谓的“编译器蜜糖”(Compiler Sugar),虽然使用这个功能很方便,但在程序运行阶段您得了解Java的语义。例如下面的程序是可以通过编译的:

Integer i = null.int j = i.这样的语法在编译时期是合法的,但是在运行时期会有错误,因为这种写法相当于:

Integer i = null.int j = i.intValue().null表示i没有参考至任何的对象实体,它可以合法地指定给对象参考名称。由于实际上i并没有参考至任何的对象,所以也就不可能操作intValue()方法,这样上面的写法在运行时会出现NullPointerException错误。

自动装箱、拆箱的功能提供了方便性,但隐藏了一些细节,所以必须小心。再来看范例4.6,您认为结果是什么呢?

Ü. 范例4.6 AutoBoxDemo2.java

public class AutoBoxDemo2 {

public static void main(String[] args) {
Integer i1 = 100;

Integer i2 = 100;

if (i1 == i2)

System.out.println("i1 == i2");

else

System.out.println("i1 != i2").

}

}

从自动装箱与拆箱的机制来看,可能会觉得结果是显示i1 == i2,您是对的。那么范例4.7的这个程序,您觉得结果是什么?

Ü. 范例4.7 AutoBoxDemo3.java

public class AutoBoxDemo3 {

public static void main(String[] args) {

Integer i1 = 200;

Integer i2 = 200;

if (i1 == i2)

System.out.println("i1 == i2");

else

System.out.println("i1 != i2");

}

}

结果是显示i1 != i2这有些令人惊讶,两个范例语法完全一样,只不过改个数值而已,结果却相反。

其实这与==运算符的比较有关,在第3章中介绍过==是用来比较两个基本数据类型的变量值是否相等,事实上==也用于判断两个对象引用名称是否参考至同一个对象。

在自动装箱时对于值从–128127之间的值,它们被装箱为Integer对象后,会存在内存中被重用,所以范例4.6中使用==进行比较时,i1 i2实际上参考至同一个对象。如果超过了从–128127之间的值,被装箱后的Integer对象并不会被重用,即相当于每次装箱时都新建一个Integer对象,所以范例4.7使用==进行比较时,i1i2参考的是不同的对象。

所以不要过分依赖自动装箱与拆箱,您还是必须知道基本数据类型与对象的差异。范例4.7最好还是依正规的方式来写,而不是依赖编译器蜜糖(Compiler Sugar)。例如范例4.7必须改写为范例4.8才是正确的。

Ü. 范例4.8 AutoBoxDemo4.java

public class AutoBoxDemo4 {
public static void main(String[] args) {

Integer i1 = 200;

Integer i2 = 200;

if (i1.equals(i2))

System.out.println("i1 == i2");

else

System.out.println("i1 != i2");

}

}

结果这次是显示i1 == i2使用这样的写法,相信也会比较放心一些,对于这些方便但隐藏细节的功能到底要不要用呢?基本上只有一个原则:如果您不确定就不要用。

posted @ 2008-05-16 11:33 晓宇 阅读(437) | 评论 (0)编辑 收藏

关于IndexWriter中的3个性能参数

IndexWriter中有3个重要的性能参数
mergeFactor           默认为10
minMergeDocs      默认为10
maxMergeDocs     默认为Integer.maxValue

maxMergeDocs     一个段中所能包含的最大的doc数,达到这个数目即不再将段进行合并 一般不改变这个值
minMergeDocs      是指在RAMDirectory中保存的Doc的个数,达到minMergeDocs 个即要合并到硬盘上去(在硬盘上新建一个段)
mergeFactor           合并因子,是控制硬盘上的段的合并的,每次在硬盘上新建一个段之后即执行
                                 targetMergeDocs*=mergeFactor(一开始targetMergeDocs=minMergeDocs) 如果硬盘上的doc数目大于等于                            targetMergeDocs则将硬盘上最后建立的mergeFactor个段进行合并成一个段

拿默认的参数举例:
如果硬盘上面已经有9个段  每个段分别存储了10个Document,共(90个DOC),这时候如果程序再向硬盘合并一个新的段(含10个DOC),合并完之后targetMergeDocs=10*10  程序检查已经合并的最后(按照创建的时间先后顺序)mergeFactor个段的document的总和100是否大于等于targetMergeDocs(这里是100,刚好满足要求)于是程序又将硬盘上面的后10个段合并为一个新的段。

另外一个例子:
doc数目            段数目
  1000---------------9个
  100-----------------9个
  10   ----------------9个
这时如果再象硬盘中新建一个新的包含了10个doc的段
    doc数目            段数目
  (1) 1000----------------9个

  (2)  100-----------------9个

  (3)   10  ----------------9个
                                     
  (4)    10 ----------------1个
这时候(3)(4)首先合并成一个新的段(3-4)包含100个doc
 然后(2)(3-4)和并成一个新段(2-3-4)包含1000个doc
然后(1)(2-3-4)合并成一个新的段  包含10000个doc
最后合并成一个段


private final void maybeMergeSegments() throws IOException {
    
long targetMergeDocs = minMergeDocs;
    
while (targetMergeDocs <= maxMergeDocs) {
      
// find segments smaller than current target size
      int minSegment = segmentInfos.size();
      
int mergeDocs = 0;
      
while (--minSegment >= 0{
        SegmentInfo si 
= segmentInfos.info(minSegment);
        
if (si.docCount >= targetMergeDocs)
          
break;
        mergeDocs 
+= si.docCount;
      }


      
if (mergeDocs >= targetMergeDocs)          // found a merge to do
        mergeSegments(minSegment+1);
      
else
        
break;

      targetMergeDocs 
*= mergeFactor;        // increase target size
      System.out.println("- -- - -targetMergeDocs:"+targetMergeDocs);
      
try {Thread.sleep(5000);} catch(Exception e) {};
    }

  }

posted @ 2008-05-15 19:27 晓宇 阅读(1419) | 评论 (0)编辑 收藏

HIBERNATE的一对多和多对一关联

HIBERNATE一多对关联中  要求在持久化类中定义集合类属性时,必须把属性声明为接口,因为HIBERNATE在调用持久化类的SET/GET方法时传递的是HIBERNATE自己定义的集合类。
在定义集合时,一般先初始化为集合实现类的一个实例 : private Set orders=new HashSet(),这样可以避免访问空集合出现NullPointerException.

posted @ 2008-05-14 11:01 晓宇 阅读(230) | 评论 (0)编辑 收藏

Lucene索引文件的格式

segments文件的格式: (段的信息)
int:  =-1    查看文件是否是Lucene合法的文件格式
long:        版本号,每更新一次该文件将会将版本号加1
int:         用来命名新段
int:         段的数目
String + int 段的信息 String是段的名称  int是段中所含的doc数目
String + int 同上


.fnm的文件格式:   (Field的信息)
int:               Field的个数,最少为1,最少有一个Field("",false),在初始化的时候写入(暂时不知道原因); 名称为空字符串,未索引,        未               向           量化。readVInt()读取
String: byte      String是 Field的名称  byte指示该Field 是否被索引,是否向量化 (值有:11,10,01)第一个1代表被索引,第二个代表被向量化
String: byte Field 同上
     

 

.fdx的文件格式:主要是提供对.fdt中存储的document的随即读取
long :       第一个document在.fdt文件中的位置
long:        第二个document在.fdt文件中的位置


.fdt的文件格式:  .fdt文件存储了一系列document的信息
VInt:        该document中的isStored属性为true的域的个数
(VInt:)      如果该field的isStored属性为true则得到该field的fieldNumber,暂时不知道这个fieldNumber是怎么产生的,有什么用,初步估计是按照field创建的顺序产生的,每次再上一个field的fieldNumber基础上加1。
byte:        如果该field的isTokenized属性为true写入1否则写入false。
String:      该field的stringValue()值。
一个document结束,下面的数据将会开始一个新的document,每个新的document的开始点的文件位置都会在.fdx中有记载,便于随即访问

 

posted @ 2008-04-21 17:52 晓宇 阅读(475) | 评论 (0)编辑 收藏

org.apache.lucene.index.SegmentInfos

final class SegmentInfos extends Vector
可以看出该类实际上是一个Vector   以及封装了对该Vevtor的一些操作
实际上封装的是对segments文件的一些读写操作
先来看下segments文件的格式

segments文件的格式:
int:  =-1         文件是否是Lucene合法的文件格式正常情况下为 -1
long:             版本号,每更新一次该文件将会将版本号加1
int:                用来命名新段
int:                段的数目
String + int  段的信息 String是段的名称  int是段中所含的doc数目
String + int  同上

所以用Lucene的API,我们可以简单的打印出其segments的所有信息

try {
   //DataInputStream fis = new DataInputStream(new FileInputStream("C:\\sf\\snow\\segments"));
   FSDirectory dir=FSDirectory.getDirectory("C:/sf/snow", false);
    InputStream input = dir.openFile("segments");
   System.out.println("Format:"+input.readInt());             //得到文件标志,是否为正常的segments文件
   System.out.println("version:"+input.readLong());        //得到版本号
   System.out.println("name:"+input.readInt());                //得到用来重命名新段的int,暂时不知道有什么用
   int n=input.readInt();                                                          //段的数目
   System.out.println("SegmentNum:"+n);                          
   for(int i=0;i<n;i++) {                                                           //用循环打印出所有段的信息 名称和长度
    System.out.println("segment "+i+" - name:"+input.readString()+" num:"+input.readInt());
   }
  } catch (Exception e) {

  }
当然,该类提供了更为复杂的访问和更新segments文件的方法
 final void read(Directory directory)    将所有的段信息保存在本vector中
final void write(Directory directory)    跟新该segment文件的内容,主要是为了添加段,
主要是更新 版本号 段的数目,跟新完这些后即可往segment文件后添加新段的信息。

posted @ 2008-04-18 17:02 晓宇 阅读(355) | 评论 (0)编辑 收藏

org.apache.lucene.index.SegmentInfo

segment(段)的信息
该类比较简单,贴出其全部代码

import org.apache.lucene.store.Directory;

final class SegmentInfo {
  public String name;        //在索引目录中唯一的名称 
  public int docCount;      // 该段中doc的数目
  public Directory dir;      // 该段所存在的Dirrectory

  public SegmentInfo(String name, int docCount, Directory dir) {
    this.name = name;
    this.docCount = docCount;
    this.dir = dir;
  }
}

posted @ 2008-04-18 16:45 晓宇 阅读(257) | 评论 (0)编辑 收藏

org.apache.lucene.store.RAMInputStream

该类是从RAMFile中读数据用的
最重要的一个方法:
该方法存在着从RAMFile的多个byte[1024]中读取数据的情况,所以应该在循环中进行处理

 public void readInternal(byte[] dest, int destOffset, int len) {
    int remainder = len;
    int start = pointer;
    while (remainder != 0) {
      int bufferNumber = start/BUFFER_SIZE; //  buffer的序号
      int bufferOffset = start%BUFFER_SIZE; //    buffer偏移量
      int bytesInBuffer = BUFFER_SIZE - bufferOffset;// 在当前buffer中剩下的字节数
      //如果缓冲区中剩余的字节大于len,则读出len长度的字节,如果不够则读出剩余的字节数
      // bytesToCopy表示实际读出的字节数
      int bytesToCopy = bytesInBuffer >= remainder ? remainder : bytesInBuffer;
      byte[] buffer = (byte[])file.buffers.elementAt(bufferNumber);
      System.arraycopy(buffer, bufferOffset, dest, destOffset, bytesToCopy);
      destOffset += bytesToCopy;       //增加已经复制的byte数据长度 到  dest中的偏移量
      start += bytesToCopy;                 //RAMFile文件指针,用来确定bufferNumber 和bytesInBuffer   相当于内存中的分页
      remainder -= bytesToCopy;       //剩余的还未复制的字节数
    }
    pointer += len;//文件指针位置
  }

posted @ 2008-04-18 11:45 晓宇 阅读(216) | 评论 (0)编辑 收藏

org.apache.lucene.store.RAMOutputStream

这是OutputStream的一个子类,其输出设备是内存,准确来说是RAMFile,即将数据写入到RAMFile的Vector中去。
该类有一个最重要的方法,现在把它整个贴出来

public void flushBuffer(byte[] src, int len) {
    int bufferNumber = pointer/BUFFER_SIZE;   //buffer序列,即当前所写Buffer在RAMFile中的Vector中的序列号
    int bufferOffset = pointer%BUFFER_SIZE;   //偏移量,即当前所写字节在当前Buffer中的偏移量。
    int bytesInBuffer = BUFFER_SIZE - bufferOffset; //当前Buffer的剩余可写字节数
   //bytesToCopy是实际写入的字节数,如果当前Bufer的剩余字节数大于需要写的字节的总数则写入所有字节
   //否则,将当前Buffer写满即可,剩余的字节将写入下一个Buffer
    int bytesToCopy = bytesInBuffer >= len ? len : bytesInBuffer;

    if (bufferNumber == file.buffers.size())
      file.buffers.addElement(new byte[BUFFER_SIZE]); //在RAMFile中添加新的byte[1024]元素

    byte[] buffer = (byte[])file.buffers.elementAt(bufferNumber);
    System.arraycopy(src, 0, buffer, bufferOffset, bytesToCopy);

    if (bytesToCopy < len) {     // not all in one buffer,
      int srcOffset = bytesToCopy;
      bytesToCopy = len - bytesToCopy;    // remaining bytes 剩余的未写入的字节数
      bufferNumber++;                         //将buffer数增加1
      if (bufferNumber == file.buffers.size()) 
        file.buffers.addElement(new byte[BUFFER_SIZE]);
      buffer = (byte[])file.buffers.elementAt(bufferNumber); //剩余字节写入下一个Buffer
      System.arraycopy(src, srcOffset, buffer, 0, bytesToCopy);
    }
    pointer += len;
    if (pointer > file.length)
      file.length = pointer;        //移位文件指针          在原有的基础上加上实际写入的字节总数

    file.lastModified = System.currentTimeMillis(); //修改文件的最后修改时间为当前时间
  }

从指定的字节数组复制指定长度的字节到RAMFile中去。由于RAMFile中Vector的元素是byte[1024]所以可能存在做一次该操作
要操作两个Vector元素的情况。即先将当前byte[1024]数组填满,再新建一个元素装载剩余的字节。

另外还有一个writeTo(OutputStream out)方法,将RAMFile中的数据输出到另一个输出流



posted @ 2008-04-18 11:38 晓宇 阅读(221) | 评论 (0)编辑 收藏

org.apache.lucene.store.RAMFile

这个类比较简单
import java.util.Vector;
class RAMFile {
  Vector buffers = new Vector();
  long length;
  long lastModified = System.currentTimeMillis();
}

可以理解为一个存储在内存中的文件,buffers是存储数据的容器,length是容器中数据的总的字节数
lastModified 是最后修改时间。

在实际使用过程中容器buffers存放的对象是一个byte[1024]数组。

posted @ 2008-04-18 11:23 晓宇 阅读(281) | 评论 (0)编辑 收藏

org.apache.lucene.store.OutputStream

OutputStream
这是一个Abstract类,是Lucene自己的一个文件输出流的基类
BUFFER_SIZE = 1024  缓冲区 大小为 1024bit
bufferStart = 0 文件位置指针
bufferPosition = 0 内存缓冲区指针

 public final void writeByte(byte b) throws IOException {
    if (bufferPosition >= BUFFER_SIZE)
      flush();
    buffer[bufferPosition++] = b;
  }
几乎所有的写入函数都要调用这个函数,如果缓冲区的当前容量已经等于他的最大容量,则将缓冲区中的数据写入文件。

public final void writeBytes(byte[] b, int length) throws IOException
批量写byte进入内存缓冲

public final void writeInt(int i) throws IOException
写入整形数据

public final void writeLong(long i) throws IOException
写入长整型数据,即结合移位运算调用两次writeInt(int i)

另外,最值得注意的是在该类中有两个最特殊的函数
writeVInt(int i) /   writeVLong(long i),
先说
writeVInt(int  i )   {
 while ((i & ~0x7F) != 0) {                               
      writeByte((byte)((i & 0x7f) | 0x80));
      i >>>= 7;
    }
    writeByte((byte)i);
}
~0x7F==~(0111 1111)==(1000 0000)==0x80
((i & ~0x7F) != 0) 这一句判断i是否大于0x80,如果不是则说明该int只有一个字节的有效数据,其他字节都是0,直接转化为Byte写入。
如果大于0x80则
(i & 0x7f) | 0x80
i&0x7f 只对后7位进行处理,|0x80将第8位置1,与前面的7个bit构成一个字节,置1的原因是说明该字节并不是一个完整的整形数,需要与其他的字节合起来才能构成一个整形数字。
这个算法相当于将一个32bit的整形数字按照每7位编码成一个字节进行存储,将按照整形数的大小存储1-5个字节。

writeVLong(long i)方法大致与其相同。

final void writeChars(String s, int start, int length)
将字符串转化成UTF-8编码的格式进行存储。
附:

UNICODE值 UTF-8编码
U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx

可见对于在 0x00-0x7F范围内的UNICODE值(最大有效数位:7位),将会编码成单字节的,会大大节约存储空间。
对于在           0x80-0x7FF范围内的UNICODE(最大有效数位:11位),会编码成双字节的。先存储原字节低5位的数位,且将最高位和次高位都置1,再次高位置0(writeByte((byte)(0xC0 | (code >> 6)));)。然后存储后6位的字节,将前两位置10(writeByte((byte)(0x80 | (code & 0x3F)));)
对于其他的UNICODE值则
writeByte((byte)(0xE0 | (code >>> 12)));               4位
 writeByte((byte)(0x80 | ((code >> 6) & 0x3F)));   5位
 writeByte((byte)(0x80 | (code & 0x3F)));            3- 5位

final void writeString(String s) throws IOException
该函数首先用s.length()判断该String总共有多少个字符
然后首先调用writeVInt写入这个字符长度
再调用writeChars(s,s.length())写入字符


在inputStream中的readString()方法则与其相反,首先用readVInt()方法读取字符长度len 然后读取len长度的字符

protected final void flush() throws IOException
该方法调用另外一个方法flushBuffer将缓冲区中的数据输出,然后清空缓冲区;

abstract void flushBuffer(byte[] b, int len) throws IOException
可见flushBuffer方法是abstract的,即需要其子类对该方法进行覆写,以定位该输出流的输出方式。

final long getFilePointer() throws IOException
得到文件指针的位置,即得到输出流已经输出的字节数。

public void seek(long pos) throws IOException
输出缓冲区的内容,然后将文件指针定位到long所指示的文件位置。

abstract long length() throws IOException
返回文件中已有的字节数。需要子类实现。

















posted @ 2008-04-16 21:24 晓宇 阅读(213) | 评论 (0)编辑 收藏