hadoop用MultipleInputs/MultiInputFormat实现一个mapreduce job中读取不同格式的文件

http://www.rigongyizu.com/use-multiinputformat-read-different-files-in-one-job/

hadoop中提供了 MultiOutputFormat 能将结果数据输出到不同的目录，也提供了 FileInputFormat 来一次读取多个目录的数据，但是默认一个job只能使用 job.setInputFormatClass 设置使用一个inputfomat处理一种格式的数据。如果需要实现 在一个job中同时读取来自不同目录的不同格式文件 的功能，就需要自己实现一个 MultiInputFormat 来读取不同格式的文件了(原来已经提供了MultipleInputs)。

例如：有一个mapreduce job需要同时读取两种格式的数据，一种格式是普通的文本文件，用 LineRecordReader 一行一行读取；另外一种文件是伪XML文件，用自定义的AJoinRecordReader读取。

自己实现了一个简单的 MultiInputFormat 如下：

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.mapreduce.lib.input.LineRecordReader;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

public class MultiInputFormat extends TextInputFormat {

@Override

public RecordReader<LongWritable, Text> createRecordReader(InputSplit split, TaskAttemptContext context) {

RecordReader reader = null;

try {

String inputfile = ((FileSplit) split).getPath().toString();

String xmlpath = context.getConfiguration().get("xml_prefix");

String textpath = context.getConfiguration().get("text_prefix");

if (-1 != inputfile.indexOf(xmlpath)) {

reader = new AJoinRecordReader();

} else if (-1 != inputfile.indexOf(textpath)) {

reader = new LineRecordReader();

} else {

reader = new LineRecordReader();

}

} catch (IOException e) {

// do something ...

}

return reader;

}

其实原理很简单，就是在 createRecordReader 的时候，通过 ((FileSplit) split).getPath().toString() 获取到当前要处理的文件名，然后根据特征匹配，选取对应的 RecordReader 即可。xml_prefix和text_prefix可以在程序启动时通过 -D 传给Configuration。

比如某次执行打印的值如下：

inputfile=hdfs://test042092.sqa.cm4:9000/test/input_xml/common-part-00068

xmlpath_prefix=hdfs://test042092.sqa.cm4:9000/test/input_xml

textpath_prefix=hdfs://test042092.sqa.cm4:9000/test/input_txt

这里只是通过简单的文件路径和标示符匹配来做，也可以采用更复杂的方法，比如文件名、文件后缀等。

接着在map类中，也同样可以根据不同的文件名特征进行不同的处理：

@Override

public void map(LongWritable offset, Text inValue, Context context)

throws IOException {

String inputfile = ((FileSplit) context.getInputSplit()).getPath()

.toString();

if (-1 != inputfile.indexOf(textpath)) {

......

} else if (-1 != inputfile.indexOf(xmlpath)) {

......

} else {

......

}

这种方式太土了，原来hadoop里面已经提供了 MultipleInputs 来实现对一个目录指定一个inputformat和对应的map处理类。

MultipleInputs.addInputPath(conf, new Path("/foo"), TextInputFormat.class,

MapClass.class);

MultipleInputs.addInputPath(conf, new Path("/bar"),

KeyValueTextInputFormat.class, MapClass2.class);

2014年8月19日 Hadoop : 一个目录下的数据只由一个map处理
2014年6月27日一个Hadoop程序的优化过程 – 根据文件实际大小实现CombineFileInputFormat
2013年10月12日 mapreduce job让一个文件只由一个map来处理
2012年1月9日 hadoop mapreduce和hive中使用SequeceFile+lzo格式数据
2014年3月11日 hadoop集群DataNode起不来：“DiskChecker$DiskErrorException: Invalid volume failure config value: 1”

posted on 2014-09-16 09:27 SIMONE 阅读(2778) 评论(0) 编辑收藏所属分类: hadoop

常用链接

留言簿(46)

随笔分类(476)

随笔档案(495)

最新随笔

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜

相关文章


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: Storm集成Kafka编程模型 Hadoop作业调优参数整理及原理 mapreduce job让一个文件只由一个map来处理 hadoop用MultipleInputs/MultiInputFormat实现一个mapreduce job中读取不同格式的文件一个Hadoop程序的优化过程 – 根据文件实际大小实现CombineFileInputFormat