Spark 0.8 集群(CentOS6.4)-简单统计测试

blog已经转移至github,大家请访问 http://qaseven.github.io/

　环境:CentOS 6.4, hadoop-2.0.0-cdh4.2.0, JDK 1.6, spark-0.8.0-incubating-bin-cdh4.tar.gz,Scala 2.9.3

　　1. 安装、部署集群环境

　　参考前章《安装Spark 0.8集群(CentOS6.4) - 大数据之内存计算》

　　2. 测试描述

　　使用在线测试数据生工具，动态生成如下json数据(名称DATA[1-9].json)：

　　{"id":10,"first_name":"Ralph","last_name":"Kennedy","country":"Colombia","ip_address":"12.211.41.162","email":"rkennedy@oyonder.net"},

　　{"id":11,"first_name":"Gary","last_name":"Cole","country":"Nepal","ip_address":"242.67.150.18","email":"gcole@browsebug.info"},

　　…

　　可以数据可以先生成100M左右，然后通过linux cp / cat工具进行数据复制、合并，产生不同大小数据，方便测试。

　　测试任务：

　　对所有*.json数据的ip地址进行简单统计，包括：ip地址总数统计，“241.*”ip地址段总数统计。将其上传到HDFS集群上

　　2.1启动 Spark 集群

　　在master上执行

$>cd ~/spark-0.8.0

$>bin/start-all.sh

　　检测进程是否启动

$> jps

11055 Jps

2313 SecondaryNameNode

2409 JobTracker

2152 NameNode

4822 Master

　　浏览master的web UI(默认http://localhost:8080). 这是你应该可以看到所有的word节点，以及他们的CPU个数和内存等信息。

　　2.2运行spark-shell从HDFS读取文件并统计IP地址

// set the master node of spark cluster and runspark-shell

$> MASTER=spark://centos01:7077./spark-shell

// read the json data

$>val file = sc.textFile("hdfs://sdc/user/hadoop/In/DATA*.json")

// filter the json data

$>val ips = file.filter(line => line.contains("ip_address"))

// Count all the IP

$>ips.count()

// Count all the“241.*”IP

$>ips.filter(line => line.contains("241.")).count()

$>ips.filter(line => line.contains("241.")).collect()

　　2.3 运行结果

posted on 2014-01-27 10:46 顺其自然EVO 阅读(422) 评论(0) 编辑收藏所属分类: linux

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: Linux解压有思路 Linux用netstat查看服务及监听端口 Linux导航神器—autojump Linux安装FTP服务 Linux CPU实时监控命令mpstat介绍浅谈测试rhel7新功能时的感受 Linux修改时间的方法 Linux下添加PATH环境变量初学者应该如何学习乃至玩好Linux系统呢？ Centos下使用gitosis配置管理git服务端

qileilove

Spark 0.8 集群(CentOS6.4)-简单统计测试

导航

统计

常用链接

留言簿(55)

随笔分类

随笔档案

文章分类

文章档案

搜索

最新评论

阅读排行榜

评论排行榜