MapReduce算法模式

Posted on 2010-04-21 11:41 泰仔在线阅读(794) 评论(0) 编辑收藏所属分类: 云计算相关

读者是没有耐心的，我也没有，所以先说结论：你可以不用编程序，只要鼠标点几下拖动些图标，改改参数，就能完成过亿数据的分布处理程序。

当然，这么理想的目标现在还没有达到，但路已经明明白白的展现在面前了，至少我们已经走了接近一半了。

首先说明， MapReduce算法本身就来自于函数式编程，因此用FP的思路来进行算法构建是再合理不过的事情。之前的程序是用Haskell开发的，现在用Python重新写了一个版本。

在做了一些MR的实际应用后，发现很多问题都有基本的算法模式，而且几个模式都很简单。后续会总结出来，这里说个该要：(自己总结的，比较山寨)
MapReduce算法模式

1. 元模式： MR Chain
多个MapReduce过程可以串接起来，实现任意复杂的统计算法。
也可以称为 Data Flow 模式
2. Map模式
包括 Field count , Field Join 两个
3. Reduce 模式
KeyCount, Value Sum, NubCount, Value Join
核心思想

（借用Java界的说法）
1. 数据流编程：源数据从MR网一端流入，在一个处理链中依次处理，获得最终结果，链可以有多个分支
2. 组合子编程：使用通用的 Mapper, Reducer 算子，组合起来实现复杂的功能，
这是一个相乘的过程，结合MR Chain，可以倍增处理的复杂度。
尽量保持每个算子的简单性和原子性，功能正交。
3. 函数柯里化：组合子可以通过参数定制，生成用户定义的函数
应用实例
输入数据

时间 ip 省份用户uuid
"03-09-2008 17:11:10" 1987636648 "四川" "0CE12C9121CA8E2484440B4459781BDB"
"03-09-2008 17:11:15" 1018955844 "浙江" "19173BB499F4B0A62F19AFEB5BA5017A"
"03-09-2008 17:11:18" 2030878566 "广东" "B596B9655D2ACD4D449D5262C1B9D3BE"
"03-09-2008 17:11:19" 1947385333 "广东" "9CF2210902BBF421E9DF1CB384B65CC7"
"03-09-2008 17:11:24" 1964392548 "陕西" "7EBE2805FBDFAB3C7B11395CB76364F4"
"03-09-2008 17:11:35" 3722701596 "江苏" "CDA23CC1EBAC208168C8AF1C88D03E55"
"03-09-2008 17:11:09" 1034301425 "云南" "5573F458F859E35D7DDCA346FD1A35A8"
"03-09-2008 17:11:09" 1987636648 "四川" "0CE12C9121CA8E2484440B4459781BDB"
"03-09-2008 17:11:09" 1987636648 "四川" "0CE12C9121CA8E2484440B4459781BDB"
"03-09-2008 17:11:10" 1987636648 "四川" "0CE12C9121CA8E2484440B4459781BDB"

统计需求

各个省上报的uuid 的不重复数目，
每个uuid上报的次数
不同上报次数分别有多少人
处理过程

串接的两个MR，第一个产生前两个需求的结果，获得的中间结果给第二个MR，得到第三个需求结果。

任务描述

test_tasks = {
    'task1' : {'name' : 'task1',
               'input' : 'userinfo.test',
               'mrs' : [('province', ('', 'm_field_count(2)'), ['KeyCount', 'NubCount']),
                        ('uuid', ('', 'm_field_count(3)'), ['KeyCount']),
                        ],
               'output' : 'task1.out',
               'next' : ['task2']
               },

    'task2' : {'name' : 'task2',
               'input' : 'task1.out',
               'mrs' : [('uuid_count_nub', ('c_uuid', 'm_field_join(1, 0)'), ['NubCount'])
                        ],
               'output' : 'task2.out',
               'next' : []
    }
}

通过框架读取任务描述，自动生成测试运行脚本，及4个程序：

run.sh

task1_map.py, task1_reduce.py, task2_map.py, task2_reduce.py 是自动生成的。

执行测试：

Task1:

$ head -n 10 userinfo.test | ./task1_map.py | sort | python ./task1_reduce.py

c_province_"云南" 1
nc_province_"云南" 1
c_province_"四川" 4
nc_province_"四川" 1
c_province_"广东" 2
nc_province_"广东" 1
c_province_"江苏" 1
nc_province_"江苏" 1
c_province_"浙江" 1
nc_province_"浙江" 1
c_province_"陕西" 1
nc_province_"陕西" 1
c_uuid_"0CE12C9121CA8E2484440B4459781BDB" 4
c_uuid_"19173BB499F4B0A62F19AFEB5BA5017A" 1
c_uuid_"5573F458F859E35D7DDCA346FD1A35A8" 1
c_uuid_"7EBE2805FBDFAB3C7B11395CB76364F4" 1
c_uuid_"9CF2210902BBF421E9DF1CB384B65CC7" 1
c_uuid_"B596B9655D2ACD4D449D5262C1B9D3BE" 1
c_uuid_"CDA23CC1EBAC208168C8AF1C88D03E55" 1

Task2:

nc_uuid_count_nub_1 6
nc_uuid_count_nub_4 1

实际运行，扔到Hadoop上跑，前面的文章中说过了。

整个过程中，只需要写一个配置文件，描述出各个任务，每个任务中的Map 和 Reduce 是什么即可。
后续工作

完善框架，自动生成程序等。
收集整理 Mapper, Reducer 算子。
基于web或者gui 的MR Chain 设计器。

转自:MapReduce算法模式

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: Nutch URL过滤配置规则 nutch抓取动态网页 Nutch中的html页面的解析问题 Nutch中的一些小的问题解决 Nutch插件加载分析 nutch源代码阅读心得 MapReduce算法模式 MapReduce 简介

泰仔在线

导航

留言簿(3)

随笔分类

收藏夹

Database相关

Enet 冲浪

Java 技术

Linux相关

搜索

最新评论

阅读排行榜

MapReduce算法模式