Hadoop使用常见问题以及解决方法2

Posted on 2012-04-15 16:37 zljpp 阅读(131) 评论(0) 编辑收藏

3：处理速度特别的慢出现map很快但是reduce很慢而且反复出现 reduce=0%
Answer:
结合第二点，然后
修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000

4：能够启动datanode，但无法访问，也无法结束的错误
在重新格式化一个新的分布式文件时，需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除，同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData，在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时，每个存储的名字空间都对应了建立时间的那个版本（可以查看/home/hadoop /NameData/current目录下的VERSION文件，上面记录了版本信息），在重新格式化新的分布式系统文件时，最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。
注意：删除是个很危险的动作，不能确认的情况下不能删除！！做好删除的文件等通通备份！！

5：java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log
出现这种情况大多是结点断了，没有连接上。

6：java.lang.OutOfMemoryError: Java heap space
出现这种异常，明显是jvm内存不够得原因，要修改所有的datanode的jvm内存大小。
Java -Xms1024m -Xmx4096m
一般jvm的最大内存使用应该为总内存大小的一半，我们使用的8G内存，所以设置为4096m，这一值可能依旧不是最优的值。

本主题由 admin 于 2009-11-20 10:50 置顶

顶，这样的贴子非常好，要置顶。附件是由Hadoop技术交流群中若冰的同学提供的相关资料：
(12.58 KB)
Hadoop添加节点的方法
自己实际添加节点过程：
1. 先在slave上配置好环境，包括ssh，jdk，相关config，lib，bin等的拷贝；
2. 将新的datanode的host加到集群namenode及其他datanode中去；
3. 将新的datanode的ip加到master的conf/slaves中；
4. 重启cluster,在cluster中看到新的datanode节点；
5. 运行bin/start-balancer.sh，这个会很耗时间
备注：
1. 如果不balance，那么cluster会把新的数据都存放在新的node上，这样会降低mr的工作效率；
2. 也可调用bin/start-balancer.sh 命令执行，也可加参数 -threshold 5
threshold 是平衡阈值，默认是10%，值越低各节点越平衡，但消耗时间也更长。
3. balancer也可以在有mr job的cluster上运行，默认dfs.balance.bandwidthPerSec很低，为1M/s。在没有mr job时，可以提高该设置加快负载均衡时间。

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理

我的家园

导航

常用链接

我的收藏

最新评论

Hadoop使用常见问题以及解决方法2