原文http://www.linuxidc.com/Linux/2012-03/57749.htm
主要包括:
1 关闭safemode模式,输入如下命令:
bin/Hadoop dfsadmin -safemode leave
2 检查存储空间是否足够,输入如下命令:
df -hl
3 重新格式化hdfs,按照如下步骤
a) 删除master和所有slave上的 hadoop目录下的logs文件,并重新建立
b) 删除master和所有slave上的hdfs存储目录,即conf/core-site.xml配置文件中hadoop.tmp.dir属性对应的value所指向的目录,并重新建立
4 检查防火墙是否关闭,输入下面命令查看状态:
ufw status
输入下面命令关闭防火墙
ufw disable
5 重新检查配置文件
不过上述方法都用过了,依然没有解决问题,下面一点是我如何解决了该问题的操作。
检查每台机器上的/etc/hosts文件,将没有用或不清楚作何用的ip:name对删除,最后只留下了
127.0.0.1 localhost
10.77.20.100 master
10.77.20.101 slave1
10.77.20.102 slave2
6 集群master/slaver内存不够,(slaver 直接宕dang机)。--此点经作者本人发现希望能够解决大家遇到的此类问题,我们可以互相交流学习!