Skynet

---------- ---------- 我的新 blog : liukaiyi.cublog.cn ---------- ----------

:: 管理

112 Posts :: 1 Stories :: 49 Comments :: 0 Trackbacks

Java 代码：

package com.xunjie.dmsp.olduser;

import java.util.Properties;

import cascading.flow.Flow;
import cascading.flow.FlowConnector;
import cascading.operation.regex.RegexSplitter;
import cascading.pipe.Each;
import cascading.pipe.Pipe;
import cascading.scheme.TextLine;
import cascading.tap.Hfs;
import cascading.tap.Tap;
import cascading.tuple.Fields;

/**
* test.txt：
* 1    a
* 2    b
* 3    c
*
* /data/hadoop/hadoop/bin/hadoop jar
*         dmsp_test_jar-1.0-SNAPSHOT-dependencies.jar
*             hdfs:/user/hadoop/test/lky/test.txt
*             file:///data/hadoop/test/lky/output
*/
public class Test2 {
    public static void main(String[] args) {

        //设定输入文件
        String sourcePath= args[0];
        //设置输出文件夹
        String sinkPath = args[1];

        //定义读取列
        Fields inputfields = new Fields("num", "value");
        //定义分解正则，默认 \t
        RegexSplitter spliter = new RegexSplitter(inputfields);


        //管道定义
        Pipe p1 = new Pipe( "test" );
        //管道嵌套：
        //分解日志源文件，输出给定字段
        p1 = new Each(p1,new Fields("line") ,spliter);


        //设定输入和输出，使用泛型Hfs
        Tap source = new Hfs( new TextLine(),  sourcePath );
        Tap sink = new Hfs( new TextLine() , sinkPath );



        //配置job
        Properties properties = new Properties();
        properties.setProperty("hadoop.job.ugi", "hadoop,hadoop");

        FlowConnector.setApplicationJarClass( properties, Main.class );
        FlowConnector flowConnector = new FlowConnector(properties);

        Flow importFlow = flowConnector.connect( "import flow", source,sink,p1);

        importFlow.start();
        importFlow.complete();


    }
}

整理 www.blogjava.net/Good-Game

posted on 2009-07-22 10:01 刘凯毅阅读(685) 评论(0) 编辑收藏所属分类: 集群开发

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: Nginx 常见应用技术指南[Nginx Tips] 第二版 (转) libevent 学习笔记 beanstalkd 消息队列的第一手资料消息队列 beanstalkd 介绍 hadoop streaming( hadoop + perl )小试 hadoop jython ( windows ) hadoop cascading demo hadoop window 搭建 svn 简单使用 soap (java,perl,要写代码还不过 100 char)

Skynet

常用链接

留言簿(13)

我参与的团队

随笔分类

随笔档案

相册

搜索

最新评论

阅读排行榜

评论排行榜