庄周梦蝶

生活、程序、未来
   :: 首页 ::  ::  :: 聚合  :: 管理

位图排序

Posted on 2008-01-07 15:30 dennis 阅读(3777) 评论(3)  编辑  收藏 所属分类: 数据结构与算法计算机科学与基础
    《编程珠玑》第一章第一题就相当的精彩,做个笔记。题目如下:
输入:   一个包含n个正整数的文件,每个正整数小于n,n等于10的7次方(一千万)。并且文件内的正整数没有重复和关联数据。

输出:  输入整数的升序排列
 
约束: 限制在1M左右内存,充足的磁盘空间

    假设整数占32位,1M内存可以存储大概250000个整数,第一个方法就是采用基于磁盘的合并排序算法,第二个办法就是将0-9999999切割成40个区间,分40次扫描(10000000/250000),每次读入250000个在一个区间的整数,并在内存中使用快速排序。书中提出的第三个解决办法是采用bitmap(或者称为bit vector)来表示所有数据集合(注意到条件,数据没有重复),这样就可以一次性将数据读入内存,减少了扫描次数。算法的伪代码如下:
阶段1:初始化一个空集合
     for i=[0,n)
           bit[i]=0;
阶段2:读入数据i,并设置bit[i]=1
    for each i in the input file
           bit[i]=1;
阶段3:输出排序的结果
   for i=[0,n)
          if bit[i]==1
              write i on the output file

这个算法的时间复杂度在O(n),用c语言写的版本可以在10秒内完成任务!c语言的源码在该书主页上有,这里给一个java的测试版,加上我的理解注释:

/**
 * Created by IntelliJ IDEA.
 * User: zhuangxd
 * Date: 2008-1-7
 * Time: 14:30:44
 
*/
public class BitSortTest {
    
private static final int BITSPERWORD = 32;  //整数位数
    private static final int SHIFT = 5;
    
private static final int MASK = 0x1F;  //5位遮蔽 0B11111
    private static final int N = 10000000;
    
//用int数组来模拟位数组,总计(1 + N / BITSPERWORD)*BITSPERWORD位,足以容纳N
    private static int[] a = new int[(1 + N / BITSPERWORD)];

    
public static void main(String[] args) {
        bitsort(
new int[]{11002100009999456778902});
    }

    
public static void bitsort(int[] array) {
        
for (int i = 0; i < N; i++)
            clr(i);   
//位数组所有位清0
        for (int i = 0; i < array.length; i++)
            set(array[i]);  
//阶段2
        for (int i = 0; i < N; i++)
            
if (test(i))
                System.out.println(i);
    }

    
//置a[i>>SHIFT]的第(i & MASK)位为1,也就是位数组的第i位为1
    public static void set(int i) {
        a[i 
>> SHIFT] |= (1 << (i & MASK));
    }

    
//置a[i>>SHIFT]的第(i & MASK)位为0,也就是位数组的第i位为0
    public static void clr(int i) {
        a[i 
>> SHIFT] &= ~(1 << (i & MASK));
    }

    
//测试位数组的第i位是否为1
    public static boolean test(int i) {
        
return (a[i >> SHIFT] & (1 << (i & MASK))) == (1 << (i & MASK));
    }
}




评论

# re: 位图排序[未登录]  回复  更多评论   

2008-01-07 20:17 by weidagang2046
10^7 bit和1M谁更大?

# re: 位图排序  回复  更多评论   

2008-01-08 08:53 by dennis
1M内存限制只是个粗略的估计,严格来讲会稍微超过

# re: 位图排序  回复  更多评论   

2008-08-06 00:38 by ee
good

只有注册用户登录后才能发表评论。


网站导航: