2010年7月2日随笔档案 - 狂奔 lion

2010年7月2日

浅谈Java中的同步的方法和原理

Java的内存模型中Thread会附有自己的堆栈，寄存器，必要时需要和主存即heap之间同步。
可以使用Synchornized关键字和Concurrent包中的Lock可以保证线程互斥和可见性。

互斥性体现在类锁或者对象锁上，每个对象自身都包含一个监视器，该监视器是一个每次只能被一个线程所获取进入的临界区，可以通过wait和notify来退出和准入临界区。可以看出这是一个生产者-消费者的模型。而Concurrent包中的Lock为了能够获得更好的性能和更好的扩展性，以及不依赖于关键字的可读代码，自己实现了这样一个生产消费队列，也就是AbstractQueuedSynchronizer，被称为AQS的机制。每个Lock都内置了一个AbstractQueuedSynchronizer。需要说明的是AbstractQueuedSynchronizer内部实现采用了CAS机制，通过getState, setState, compareAndSetState访问控制一个32bit int的形式进行互斥。

那么可见性是如何保证的呢？

对于关键字的同步机制，其实可见性就是线程和主存之间的同步时机问题。共有4个时间点需要注意：
1 获取或释放类锁/对象锁的时候。Thread保证reload/flush全部变更
2 volatile就是flush on write或者reload on read
3 当线程首次访问共享变量时，可以得到最新的结果。
题外：所以在构造方法中公布this时很危险的。简单的说，就是构造时不逃脱任何变量，不开启新的线程，只做封装。关于安全构造，请参考
http://www.ibm.com/developerworks/cn/java/j-jtp0618/#resources
4 线程结束时，所有变更会写回主存

关于Concurrent Lock如何实现可见性的问题，Doug Lea大侠，只在他的论文中提到，按照JSR133，Unsafe在getState, setState, compareAndSetState时保证了线程的变量的可见性，不需要额外的volatile支持，至于具体这些native做了哪些magic就不得而知了，总之，最后的contract就是保证lock区间的共享变量可见性。开发团队被逼急了就这样回答：
There seems to be a real reluctance to explain the dirty details. I think the question was definitely understood on the concurrent interest thread, and the answer is that synchronized and concurrent locking are intended to be interchangable in terms of memory semantics when implemented correctly. The answer to matfud's question seems to be "trust us.”

不过这个地方的确是开发团队给我们用户迷惑的地方，在同样应用了CAS机制的Atomic类中，都内嵌了volatile变量，但是再lock块中，他告诉我们可以保证可见性。

感兴趣的同学可以下面的两个thread和Doug Lea的thesis：
http://altair.cs.oswego.edu/pipermail/concurrency-interest/2005-June/001587.html
http://forums.sun.com/thread.jspa?threadID=631014&start=15&tstart=0
http://gee.cs.oswego.edu/dl/papers/aqs.pdf

posted @ 2010-07-09 19:49 杨一阅读(1854) | 评论 (0) | 编辑收藏

commons-net FTPClient API存取设计

_{文件系统无非就是文件的存取和组织结构。

访问一个文件系统的API也应该是写，读，定位方法（Pathname?/URI?）
FTPClient针对文件的保存和获取各提供了两个方法，分别是：

public boolean storeFile(String remote, InputStream local)

public OutputStream storeFileStream(String remote)

public boolean retrieveFile(String remote, OutputStream local)

public InputStream retrieveFileStream(String remote)

两个方法貌似相同，实际不同，返回流的那个因为不能马上处理流，所以需要用户手工调用completePendingCommand，而另一个传递流进去的则不需要。可能有同学已经遇到过这个问题了，读写第一个文件时总是正确的，当相同API读写第二个文件时，block住了。这是因为FTPClient要求在进行流操作之后执行completePendingCommand，以确保流处理完毕，因为流处理不是即时的，所以也没有办法不手工调用completePendingCommand。问题是开发者把不返回流的方法末尾加上了completePendingCommand，如果不看代码可能根本不知道。

文档上说：

     * There are a few FTPClient methods that do not complete the

     * entire sequence of FTP commands to complete a transaction.  These

     * commands require some action by the programmer after the reception

     * of a positive intermediate command.  After the programmer's code

     * completes its actions, it must call this method to receive

     * the completion reply from the server and verify the success of the

     * entire transaction.

但是这样仍然还是让人有点困惑，为什么都是存储/读取的方法，有时候要调用completePendingCommand，有时候不调用？更严重的问题是completePendingCommand调用了getReply，如果一个命令通过socket stream传了过去但是没有getReply，即没有completePendingCommand，那么下次发命令时，将会受到本次返回码的干扰，得到无效的响应。而如果在completePendingCommand之后又进行了一次无辜的completePendingCommand，那么因为FTP Server上没有Reply了，就会block。所以completePendingCommand并不是可以随意添加的。
现在出现了两个问题：

1 completePendingCommand很容易多出来或遗漏

2 显式调用completePendingCommand暴露了底层实现，给用户带来不便，用户只想要InputStream或者OutputStream
为了解决这个问题，可以对InputStream进行扩展，建立一个ReplyOnCloseInputStream，如下：

private static ReplyOnCloseInputStream extends InputStream{

  //

  public ReplyOnCloseInputStream(InputStream is, FTPClient c){

    //

  }

  //

  @override

  public void close(){

    if(c.completePendingCommand){

      is.close();

    }else{

      //throw Exception

    }

  }

}

//

return new ReplyOnCloseInputStream(is, client);

这样封装之后，FTPClient的用户只需要正常在处理完流之后关闭即可，而不必暴露实现细节。保存文件也可以用相同的方法封装OutputStream。}

posted @ 2010-07-07 23:08 杨一阅读(3458) | 评论 (1) | 编辑收藏

关于ThreadLocal的内存泄露

ThreadLocal是一种confinement，confinement和local及immutable都是线程安全的（如果JVM可信的话）。因为对每个线程和value之间存在hash表，而线程数量未知，从表象来看ThreadLocal会存在内存泄露，读了代码，发现实际上也可能会内存泄露。

事实上每个Thread实例都具备一个ThreadLocal的map，以ThreadLocal Instance为key，以绑定的Object为Value。而这个map不是普通的map，它是在ThreadLocal中定义的，它和普通map的最大区别就是它的Entry是针对ThreadLocal弱引用的，即当外部ThreadLocal引用为空时，map就可以把ThreadLocal交给GC回收，从而得到一个null的key。

这个threadlocal内部的map在Thread实例内部维护了ThreadLocal Instance和bind value之间的关系，这个map有threshold，当超过threshold时，map会首先检查内部的ThreadLocal（前文说过，map是弱引用可以释放）是否为null，如果存在null，那么释放引用给gc，这样保留了位置给新的线程。如果不存在slate threadlocal，那么double threshold。除此之外，还有两个机会释放掉已经废弃的threadlocal占用的内存，一是当hash算法得到的table index刚好是一个null key的threadlocal时，直接用新的threadlocal替换掉已经废弃的。另外每次在map中新建一个entry时（即没有和用过的或未清理的entry命中时），会调用cleanSomeSlots来遍历清理空间。此外，当Thread本身销毁时，这个map也一定被销毁了（map在Thread之内），这样内部所有绑定到该线程的ThreadLocal的Object Value因为没有引用继续保持，所以被销毁。

从上可以看出Java已经充分考虑了时间和空间的权衡，但是因为置为null的threadlocal对应的Object Value无法及时回收。map只有到达threshold时或添加entry时才做检查，不似gc是定时检查，不过我们可以手工轮询检查，显式调用map的remove方法，及时的清理废弃的threadlocal内存。需要说明的是，只要不往不用的threadlocal中放入大量数据，问题不大，毕竟还有回收的机制。

综上，废弃threadlocal占用的内存会在3中情况下清理：
1 thread结束，那么与之相关的threadlocal value会被清理
2 GC后，thread.threadlocals(map) threshold超过最大值时，会清理
3 GC后，thread.threadlocals(map) 添加新的Entry时，hash算法没有命中既有Entry时，会清理

那么何时会“内存泄露”?当Thread长时间不结束，存在大量废弃的ThreadLocal，而又不再添加新的ThreadLocal（或新添加的ThreadLocal恰好和一个废弃ThreadLocal在map中命中）时。

posted @ 2010-07-02 18:27 杨一阅读(2276) | 评论 (2) | 编辑收藏

狂奔 lion

浅谈Java中的同步的方法和原理

commons-net FTPClient API存取设计

关于ThreadLocal的内存泄露

导航

公告

常用链接

留言簿(5)

随笔分类(55)

随笔档案(55)

相册

Java

其他技术

生活

最新随笔

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜

自强不息