Posted on 2012-03-28 10:32
一酌散千忧 阅读(1714)
评论(0) 编辑 收藏 所属分类:
Hadoop
Hadoop: The Definitive Guide(Hadoop权威指南),第十六页中提到了测试数据来源来自于National Climatic Data Center (NCDC, http://www.ncdc.noaa.gov/)。在下面使用Unix Tool编写脚本时使用到的文件格式如下:
For example, here are the first entries for 1990:
% ls raw/1990 | head
010010-99999-1990.gz
010014-99999-1990.gz
010015-99999-1990.gz
010016-99999-1990.gz
010017-99999-1990.gz
010030-99999-1990.gz
010040-99999-1990.gz
010080-99999-1990.gz
010100-99999-1990.gz
010150-99999-1990.gz
对于数据的来源很困惑,不知道如何下载。google之后在http://lucene.472066.n3.nabble.com/The-NCDC-Weather-Data-for-Hadoop-the-Definitive-Guide-td3736774.html 这篇帖子中发现方法。现在记录一下
连接http://www.ncdc.noaa.gov/
注意到左边的Free Data。
点击后转到的页面向下拉,在Free Data B中友一个完全免费的FTP(红框所示)
提供ftp地址为:ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/
我使用了FileZilla(http://dl.pconline.com.cn/html_2/1/89/id=5826&pn=0.html)进行下载
共1w多个文件,可能是不需要完全下载的。
(完)