敏捷、分布式、ALM过程自动化、企业应用架构
posts - 14, comments - 0, trackbacks - 0, articles - 1
  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理

Hadoop: The Definitive GuideHadoop权威指南),第十六页中提到了测试数据来源来自于National Climatic Data Center (NCDC, http://www.ncdc.noaa.gov/)。在下面使用Unix Tool编写脚本时使用到的文件格式如下:

 

For example, here are the first entries for 1990:

% ls raw/1990 | head

010010-99999-1990.gz

010014-99999-1990.gz

010015-99999-1990.gz

010016-99999-1990.gz

010017-99999-1990.gz

010030-99999-1990.gz

010040-99999-1990.gz

010080-99999-1990.gz

010100-99999-1990.gz

010150-99999-1990.gz

 

对于数据的来源很困惑,不知道如何下载。google之后在http://lucene.472066.n3.nabble.com/The-NCDC-Weather-Data-for-Hadoop-the-Definitive-Guide-td3736774.html 这篇帖子中发现方法。现在记录一下

连接http://www.ncdc.noaa.gov/


注意到左边的
Free Data

点击后转到的页面向下拉,在Free Data B中友一个完全免费的FTP(红框所示)


 

提供ftp地址为:ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/

我使用了FileZillahttp://dl.pconline.com.cn/html_2/1/89/id=5826&pn=0.html)进行下载


1w多个文件,可能是不需要完全下载的。

(完)


只有注册用户登录后才能发表评论。


网站导航: