非主流并发工具之 ForkJoinPool

Posted on 2012-02-09 10:40 蜀山兆孨龘阅读(2677) 评论(2) 编辑收藏所属分类: Java SE

ForkJoinPool 是 Java SE 7 新功能“分叉/结合框架”的核心类，现在可能乏人问津，但我觉得它迟早会成为主流。分叉/结合框架是一个比较特殊的线程池框架，专用于需要将一个任务不断分解成子任务（分叉），再不断进行汇总得到最终结果（结合）的计算过程。比起传统的线程池类 ThreadPoolExecutor，ForkJoinPool 实现了工作窃取算法，使得空闲线程能够主动分担从别的线程分解出来的子任务，从而让所有的线程都尽可能处于饱满的工作状态，提高执行效率。

ForkJoinPool 提供了三类方法来调度子任务：

execute 系列: 异步执行指定的任务。
invoke 和 invokeAll: 执行指定的任务，等待完成，返回结果。
submit 系列: 异步执行指定的任务并立即返回一个 Future 对象。

子任务由 ForkJoinTask 的实例来代表。它是一个抽象类，JDK 为我们提供了两个实现：RecursiveTask 和 RecursiveAction，分别用于需要和不需要返回计算结果的子任务。ForkJoinTask 提供了三个静态的 invokeAll 方法来调度子任务，注意只能在 ForkJoinPool 执行计算的过程中调用它们。

ForkJoinPool 和 ForkJoinTask 还提供了很多让人眼花缭乱的公共方法，其实它们大多数都是其内部实现去调用的，对于应用开发人员来说意义不大。

下面以统计 D 盘文件个数为例。这实际上是对一个文件树的遍历，我们需要递归地统计每个目录下的文件数量，最后汇总，非常适合用分叉/结合框架来处理：

// 处理单个目录的任务
public class CountingTask extends RecursiveTask<Integer> {
    private Path dir;

    public CountingTask(Path dir) {
        this.dir = dir;
    }

    @Override
    protected Integer compute() {
        int count = 0;
        List<CountingTask> subTasks = new ArrayList<>();

        // 读取目录 dir 的子路径。
        try (DirectoryStream<Path> ds = Files.newDirectoryStream(dir)) {
            for (Path subPath : ds) {
                if (Files.isDirectory(subPath, LinkOption.NOFOLLOW_LINKS)) {
                    // 对每个子目录都新建一个子任务。
                    subTasks.add(new CountingTask(subPath));
                } else {
                    // 遇到文件，则计数器增加 1。
                    count++;
                }
            }

            if (!subTasks.isEmpty()) {
                // 在当前的 ForkJoinPool 上调度所有的子任务。
                for (CountingTask subTask : invokeAll(subTasks)) {
                    count += subTask.join();
                }
            }
        } catch (IOException ex) {
            return 0;
        }
        return count;
    }
}

// 用一个 ForkJoinPool 实例调度“总任务”，然后敬请期待结果……
Integer count = new ForkJoinPool().invoke(new CountingTask(Paths.get("D:/")));

在我的笔记本上，经多次运行这段代码，耗费的时间稳定在 600 豪秒左右。普通线程池（Executors.newCachedThreadPool()）耗时 1100 毫秒左右，足见工作窃取的优势。

结束本文前，我们来围观一个最神奇的结果：单线程算法（使用 Files.walkFileTree(...)）比这两个都快，平均耗时 550 毫秒！这警告我们并非引入多线程就能优化性能，并须要先经过多次测试才能下结论。

# re: 非主流并发工具之 ForkJoinPool 回复 更多评论

2012-02-24 14:53 by 恩亠

600毫秒？不是600秒吗？那你的D盘也太干净了，我的有上百万文件，根本就是半天没有结果

# re: 非主流并发工具之 ForkJoinPool 回复 更多评论

2012-02-24 22:48 by 蜀山兆孨龘

确实是 600 毫秒，看来你下的片片太多了哈哈。上百万的文件数量即使在 Windows 里面右键看属性都很慢……

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: 非主流并发工具之 ForkJoinPool Java 网络编程从菜鸟到叫兽 4：面向流的套接字 I/O Java 网络编程从菜鸟到叫兽 3：套接字初始化详解单例模式的一个疑问 Java 网络编程从菜鸟到叫兽 2：TCP 和套接字入门 Java 网络编程从菜鸟到叫兽 1：IP 非主流并发工具之 Exchanger 基于 NIO2 的 ZIP 文件系统钻石运算符的一个 BUG 非主流并发工具之 CyclicBarrier

神奇好望角 The Magical Cape of Good Hope