Hadoop周刊 第 166 期
2016年4月17日
启明星辰——平台和大数据整体组编译
Hortonworks在本周Hadoop欧洲峰会上有若干爆料,贯穿了本期整个内容。伴随着骄人的新特性,Apache Storm发布了1.0.0版。在技术新闻方面,有不少基于Kafka构建大规模服务和分布式系统测试的文章。如果你错过了Hadoop峰会,那么不用担心,演讲视频已经放到了网上。
技术新闻
Smyte撰文介绍了他们基于事件数据流实时检测垃圾邮件和诈骗信息的基础设施。最初的事件处理系统构建在Kafka、Redis、Secor以及S3上,为了满足规模不断扩张和廉价的要求,他们把系统迁移到基于磁盘的方案上,使用Redis协议与RocksDB交互,使用Kafka进行复制。
https://medium.com/the-smyte-blog/counting-with-domain-specific-databases-73c660472da
本文把rsyslog、Kafka、AWS 与ELK栈(ElasticSearch、Logstash、Kibana)结合,处理诸如反压、规模以及维护方面的问题。本文覆盖了rsyslog集成Kafka以及schema方面的技巧,也介绍了如何运行Kafka、Zookeeper以及AWS中大规模自动分组。
https://www.bashton.com/blog/2016/elk-on-ark/
Hortonworks撰文介绍了Apache Atlas以及Apache Range将要引入的数据管理特性。这些特性是:分类访问控制、数据有效期策略、位置特性策略、禁止数据集组合、跨组件家族(例如从Kafka到Storm再到Hive的数据跟踪)。
http://hortonworks.com/blog/the-next-generation-of-hadoop-based-security-data-governance/
Apache HAWQ (孵化中)是一个基于Greenplum在HDFS上提供数据查询的SQL引擎。本文讨论了其典型设计以及新版本的诸多改进。包括它与Spark和MapReduce的区别,还有些Hadoop挑战经典MPP设计的内容,以及HAWQ的新设计怎样结合MPP和批处理技术进而使其两者兼顾。
https://blog.pivotal.io/big-data-pivotal/products/apache-hawq-next-step-in-massively-parallel-processing
Cloudera博客撰文介绍了对Hadoop分布式系统进行故障注入、组网的测试工具AgenTEST。它能注入网络故障(例如丢包),资源满载(例如CPU、IO、磁盘空间)等等。当测试网络分区时,可以评估环形组网、桥接组网等等。
http://blog.cloudera.com/blog/2016/04/quality-assurance-at-cloudera-fault-injection-and-elastic-partitioning/
Hortonworks博客展望了将包含新版本Spark和Zeppelin的HDP 2.4.2。Spark2.0预览版和Zeppelin新特性都将包含在内。
http://hortonworks.com/blog/apache-spark-apache-zeppelin-whats-coming-in-hdp-2-4-2/
Cask撰文介绍了在Hbase region compaction这样罕见事件发生的前后,他们是怎样通过长时间测试以评估分布式系统正确性的。
http://blog.cask.co/2016/04/long-running-tests-in-cdap/
本文介绍了如何结合SparkR与亚马逊EMR进行地理空间分析的。通过SparkR的Hive集成组件,可以立刻基于S3上的数据映射Hive外部表。从这开始,数据就能直接加载到内存中使用R语言分析,很容易实现高质量的数据可视化。
http://blogs.aws.amazon.com/bigdata/post/Tx1MECZ47VAV84F/Exploring-Geospatial-Intelligence-using-SparkR-on-Amazon-EMR
MapR编写了使用Pig和Hive分析职业棒球大联盟球队水平的教程。Pig用于数据初加工,Hive提供基于SQL的数据查询环境。借助Hive ODBC驱动和Hive服务器,使得微软Excel也能用于获取和分析数据。
https://www.mapr.com/blog/using-hive-and-pig-baseball-statistics
SignalFX通过27节点的Kafka集群每天处理700多亿条消息。只有基于他们积累的大规模Kafka使用经验才能有如此高的量,因此他们共享了不少调试Kafka的技巧,定位告警(例如日志刷新延迟增加),以及Kafka横向扩展。
http://www.confluent.io/blog/how-we-monitor-and-run-kafka-at-scale-signalfx
dataArtisan's博客为了度量Flink在数据流效率、低延迟、正确性上的能力,专门写了这篇文章。为了证明效率,在高吞吐量的环境下运行了最新的Yahoo!流式基准测试程序。在正确性方面,文章突出了Flink事件判别和处理事件(星球大战电影年表做类比)方面的优势。最后,文章描述了Flink未来版本基于内存的查询任务。
http://data-artisans.com/counting-in-streams-a-hierarchy-of-needs/
本教程介绍了怎样把TCP Socket中的文本数据流转换为Spark流式数据源。
https://medium.com/@anicolaspp/spark-custom-streaming-sources-e7d52da72e80
本文介绍了在构建Hadoop的时候怎样防止AWS证书意外提交到补丁或git资源库。除Hadoop本身外,本文还建议使用“git-secrets”工具防止意外提交访问/安全密钥。如果你用的是Hadoop S3,还推荐了新补丁供评估。
http://steveloughran.blogspot.co.uk/2016/04/testing-against-s3-and-object-stores.html
Big Data & Brews采访了MapR的Ted Dunning和Jacques Nadeau。Apache Arrow也在本次采访范围内。
https://www.youtube.com/watch?v=l3mDDKjDjMk
https://www.youtube.com/watch?v=Xo9CO0a0VJI
其他新闻
DataEngConf最近在旧金山召开。本文总结了Uber、Stripe、Microsoft、Instacart、Jawbone的发言内容。也介绍了会议主题“数据科学在现实世界中是一个产品和工程学科”。
https://medium.com/@eugmandel/software-engineering-invades-data-science-notes-from-dataengconf-4a3c066b081f#.g2h0duo44
Hortonworks在上周都柏林举行的Hadoop欧洲峰会上大放异彩。ZDNet报导了这些亮点,其中包括与Pivotal(已转售给HDP)的扩展合作,与Syncosrt的转售协议,以及Atlas、Ranger、Zeppelin、Metron的技术预览。报导还介绍了Hortonworks、Cloudera、MapR产品的不同之处。
http://www.zdnet.com/article/hortonworks-announces-new-alliances-and-releases-hadoop-comes-to-fork-in-road/
Flink 2016峰会将在九月于德国柏林举行。讨论议题征集将于六月末结束。
http://flink.apache.org/news/2016/04/14/flink-forward-announce.html
YouTube上发布了Hadoop都柏林峰会演讲视频。正如预期的那样,这些演讲内容涵盖Hadoop生态系统的各个部分。
https://www.youtube.com/channel/UCAPa-K_rhylDZAUHVxqqsRA/videos?flow=list&live_view=500&view=0&sort=dd
产品发布
Metascope是一个配合Schedoscope在Hadoop集群中进行元数据管理的新工具。通过web界面,利用数据沿袭它能洞察大量的数据。也提供检索、内嵌文档、REST API等等功能。
https://github.com/ottogroup/metascope
Apache HBase 1.2.1于本周发布,在1.2.0的基础上解决了27个问题。发布声明中重点介绍了四个高优先级的问题。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAN5cbe7-T5uAYvGRbxw2dfvdbwe5s0nx3vKU8Nt2fzXbKPoQTg@mail.gmail.com%3E
Apache Mahout机器学习库发布了0.12.0版。该版本的“Samsara”数学环境开始支持Apache Flink了,并且是平台无关的。发布声明中分享了与Flink集成、已知问题、项目演进计划相关的内容。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAOtpBjj5An876PStdn5kMeaF+up-B72WTmCk9j21EXdP=JOCUA@mail.gmail.com%3E
Apache Storm 1.0.0本周发布了。亮点包括性能提升(普遍提升3倍以上)、新的分布式缓存API、nimbus的高可用性、自动反压、动态worker性能分析等等。
http://storm.apache.org/2016/04/12/storm100-released.html
Apache Kudu(孵化中)本周发布了0.8.0版。本次发布添加了Apache Flume sink、部分功能提升、修复了一批bug。
http://getkudu.io/releases/0.8.0/docs/release_notes.html
Cloudbreak本周发布了1.2版,它为云环境提供Hadoop集群Docker。新特性包括支持OpenStack以及为自定义服务器提供配置脚本。
http://hortonworks.com/blog/announcing-cloudbreak-1-2/
Cloudera发布了Cloudera Enterprise 5.4.10,内置了Flume、Hadoop、HBase、Hive、Impala等组件。
http://community.cloudera.com/t5/Community-News-Release/ANNOUNCE-Cloudera-Enterprise-5-4-10-Released/m-p/39790#U39790
Presto Accumulo是个新项目,为Accumulo读写数据提供了Presto连接器。
https://github.com/bloomberg/presto-accumulo
活动
中国
无