大数据处理 - 外（磁盘文件）排序

[TOC]

在编程珠玑中，描述了三种外部磁盘文件排序的解决方法，分别是
位图排序法 - 在待排序文件中不含重复数的情况下，位图排序法是最高效的
外排多路归并法 - 在更一般的情况下，外排多路归并法具有通用性
多通道排序法 所以本文主要介绍前两种。

1. 外排序介绍

外排序, 即借助外部存储进行排序.

适用范围: 大数据的排序，去重
基本原理及要点: 外排序的归并方法，置换选择败者树原理，最优归并树

2. 相关问题引入和方案

问题描述如下：

输入：一个最多含有n个不重复的正整数（也就是说可能含有少于n个不重复正整数）的文件，其中每个数都小于等于n，且n=10^7（1000万个）。
输出：得到按从小到大升序排列的包含所有输入的整数的列表。
条件：最多有大约1MB的内存空间可用，但磁盘空间足够。且要求运行时间在5分钟以下，10秒为最佳结果。

在编程珠玑中，描述了三种解决方法，分别是

位图排序法 - 在待排序文件中不含重复数的情况下，位图排序法是最高效的
外排多路归并法 - 在更一般的情况下，外排多路归并法具有通用性
多通道排序法

所以本文主要介绍前两种。

2.1 位图排序法

熟悉位图的朋友可能会想到用位图来表示这个文件集合。例如正如编程珠玑一书上所述，用一个20位长的字符串来表示一个所有元素都小于20的简单的非负整数集合，边框用如下字符串来表示集合{1,2,3,5,8,13}：0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0；上述集合中各数对应的位置则置1，没有对应的数的位置则置0。

参考编程珠玑一书上的位图方案，针对我们的10^7个数据量的磁盘文件排序问题，我们可以这么考虑，由于每个7位十进制整数表示一个小于1000万的整数。我们可以使用一个具有1000万个位的字符串来表示这个文件，其中，当且仅当整数i在文件中存在时，第i位为1。采取这个位图的方案是因为我们面对的这个问题的特殊性：
1、输入数据限制在相对较小的范围内
2、数据没有重复，
3、其中的每条记录都是单一的整数，没有任何其它与之关联的数据。

所以，此问题用位图的方案分为以下三步进行解决：

第一步，将所有的位都置为0，从而将集合初始化为空。
第二步，通过读入文件中的每个整数来建立集合，将每个对应的位都置为1。
第三步，检验每一位，如果该位为1，就输出对应的整数。

经过以上三步后，产生有序的输出文件。令n为位图向量中的位数（本例中为1000 0000），程序可以用伪代码表示如下：

//磁盘文件排序位图方案的伪代码
//copyright@ Jon Bentley
//July、updated，2011.05.29。
 
//第一步，将所有的位都初始化为0
for i ={0,....n}    
   bit[i]=0;
//第二步，通过读入文件中的每个整数来建立集合，将每个对应的位都置为1。
for each i in the input file   
   bit[i]=1;
 
//第三步，检验每一位，如果该位为1，就输出对应的整数。
for i={0...n}    
  if bit[i]==1      
    write i on the output file

上述的位图方案，共需要扫描输入数据两次，具体执行步骤如下：

第一次，只处理1—4999999之间的数据，这些数都是小于5000000的，对这些数进行位图排序，只需要约5000000/8=625000Byte，也就是0.625M，排序后输出。
第二次，扫描输入文件时，只处理4999999-10000000的数据项，也只需要0.625M（可以使用第一次处理申请的内存）。

因此，总共也只需要0.625M。

位图的的方法有必要强调一下，就是位图的适用范围为针对不重复的数据进行排序，若数据有重复，位图方案就不适用了。

2.2 多路归并排序

首先我们需要回顾下，什么是归并排序，请参考：排序 - 归并排序(Merge Sort)

相对于多路归并排序，归并排序的本质是二路归并排序；我们已经知道，当数据量大到不适合在内存中排序时，可以利用多路归并算法对磁盘文件进行排序。

我们以一个包含很多个整数的大文件为例，来说明多路归并的外排序算法基本思想。假设文件中整数个数为N(N是亿级的)，整数之间用空格分开。首先分多次从该文件中读取M（十万级）个整数，每次将M个整数在内存中使用内部排序之后存入临时文件，这样就得到多个外部文件，对应于多个外部文件，我们可以利用多路归并将各个临时文件中的数据一边读入内存，一边进行归并输出到输出文件。显然，该排序算法需要对每个整数做2次磁盘读和2次磁盘写。（如果根据初始外部文件的个数设置归并的路数，则会对每个整数做多次读/写，具体次数可参考严蔚敏书籍）

我们来编程实现上述磁盘文件排序的问题，代码思路对应上面图由两部分构成：

内存排序
- 由于要求的可用内存为1MB，那么每次可以在内存中对250K的数据进行排序，然后将有序的数写入硬盘。
- 那么10M的数据需要循环40次，最终产生40个有序的文件。
归并排序
- 将每个文件最开始的数读入(由于有序，所以为该文件最小数)，存放在一个大小为40的first_data数组中；
- 选择first_data数组中最小的数min_data，及其对应的文件索引index；
- 将first_data数组中最小的数写入文件result，然后更新数组first_data(根据index读取该文件下一个数代替min_data)；
- 判断是否所有数据都读取完毕，否则返回2。

3. 参考

https://www.pdai.tech/md/algorithm/alg-domain-bigdata-outsort.html

其中涉及的算法和具体的实现，请参看如下文章：

https://blog.csdn.net/v_JULY_v/article/details/7382693
https://www.cnblogs.com/harryshayne/archive/2011/07/02/2096196.html

再次推荐下CSDN博主July，博客专注面试、算法、机器学习。

最后更新于3年前

hashtag1. 外排序介绍

hashtag2. 相关问题引入和方案

hashtag2.1 位图排序法

hashtag2.2 多路归并排序

hashtag3. 参考

1. 外排序介绍

2. 相关问题引入和方案

2.1 位图排序法

2.2 多路归并排序

3. 参考