Hadoop周刊 第 168 期
启明星辰平台和大数据整体组编译
2016年5月1日
Kafka峰会本周在旧金山召开,不容置疑本周期刊将有大量的Kafka内容。除此以外,还有大量关于Impala性能、Kudu、Druid方面的文章。在其他新闻部分,Apache Apex成为了Apache的顶级项目,Qubole开源了其StreamX项目。
技术新闻
本文快速浏览了如何在可能或不可能创建新数据分区的情况下操作Spark RDD。尤其`mapValues`和`filter`会保存分区而`map`却不会。
https://medium.com/@corentinanjuna/apache-spark-rdd-partitioning-preservation-2187a93bc33e
本文介绍了如何使用Conda构建独立的Python环境(例如pandas插件),以便做为Spark job的一部分装载到集群节点。经过这样的处理,就能在没有python原生包被安装在主操作系统上的情况下运行PySpark job。这种方案同样适用于SparkR。
http://quasiben.github.io/blog/2016/4/15/conda-spark/
Datadog博客有三篇监控Kafka的系列文章。第一篇详细概括了broker、producer、consumers、ZooKeeper的关键度量指标。第二篇介绍了怎样在JConsole和其他工具上通过JMX查看指标,第三篇介绍了Datadog集成方面的知识。
https://www.datadoghq.com/blog/monitoring-kafka-performance-metrics/
Salesforce撰文介绍了Kafka在他们组织内的成长史。最初,他们借助Kafka驱动了操作指标分析功能,渐渐地成为一个驱动众多系统的大平台。Salesforce运用Kafka在多个数据中心运行,并使用MirrorMaker在集群间复制和聚合数据。
https://medium.com/salesforce-engineering/expanding-visibility-with-apache-kafka-e305b12c4aba#.5k7j921o3
Metamarkets博客有一篇关于优化大规模分布式系统的有趣博文。Druid,他们的分布式数据仓库,最近增加了一种"先进先出"的查询模式,并在重型负载大集群间进行了测试。根据他们的假设,推测任何可能发生和收集到有趣的的指标。
https://metamarkets.com/2016/impact-on-query-speed-from-forced-processing-ordering-in-druid/
Google Cloud Big Data博客撰文介绍了BigQuery的内部存储格式,容器,以及其它使得存储数据更有效率的优化措施。
https://cloud.google.com/blog/big-data/2016/04/inside-capacitor-bigquerys-next-generation-columnar-storage-format
Apache Kudu(孵化中)博客概述了最近使用YCSB工具对系统性能分析和调优的结果。
http://getkudu.io/2016/04/26/ycsb.html
Impala 2.5无论是TPC基准测试还是其它方面均有显著的性能提升。提升项包括运行时过滤器,LLVM代码生成器对`SORT`和`DECIMAL`的支持,更快的metadata-only查询,等等。
http://blog.cloudera.com/blog/2016/04/apache-impala-incubating-in-cdh-5-7-4x-faster-for-bi-workloads-on-apache-hadoop/
本文介绍了,为支持高可用性,如何对Hive Metastore配置MariaDB的。
https://developer.ibm.com/hadoop/blog/2016/04/26/bigsql-ha-configure-ha-hive-metastore-db-using-mariadb10-1/
Altiscale博客撰文介绍了寻找NodeGroup相关bug的过程(跟进三月的文章)。如果你因没找到Hadoop(或其他分布式系统)的bug根结而气馁,不要叹气。本文告诉你这的确困难,甚至需要程序员在销售Hadoop服务的企业干活才能搞定。
https://www.altiscale.com/blog/part-1-2-investigation-analysis-and-resolution-of-nodegroup-performance-issues-on-bare-metal-hardware-clusters/
Netflix现在运行了超过4000个Kafka broker,横跨36个集群。在云中运行Kafka需要一些权衡,团队平衡了开销和数据丢失(日数据丢失小于0.01%)。本文分享了团队在AWS中运行Kafka的经验,主要是一些典型问题,部署策略(小集群、隔离的zookeeper集群),集群级容错,支持AWS availability zones,Kafka UI可视化等等。
http://techblog.netflix.com/2016/04/kafka-inside-keystone-pipeline.html
Amazon大数据博客撰文介绍了如何从Amazon EMR加密数据存放在S3中。这种集成方式同时支持客户端和服务器端加密(借助于Amazon KMS)。
http://blogs.aws.amazon.com/bigdata/post/TxBQTAF 3X7VLEP/Process-Encrypted-Data-in-Amazon-EMR-with-Amazon-S3-and-AWS-KMS
TubeMogul介绍了他们大数据平台的历史,该平台每月支撑万亿次数据分析请求。该团队很早就运用Amazon EMR,导入了Storm实时处理技术,最终把大数据服务落在了Qubole上。
https://www.tubemogul.com/engineering/the-big-data-lifecycle-at-tubemogul/
Caffe,深度学习框架,与Spark进行了集成—CaffeOnSpark。MapR公司撰文介绍了如何在MapR YARN上运行,文章还包括了采用的性能优化手段。
https://www.mapr.com/blog/distributed-deep-learning-caffe-using-mapr-cluster
其他新闻
Apache Apex,大数据流式处理和批处理系统,现在成为了Apache软件基金会的顶级项目。Apex去年8月进入孵化器。
https://blogs.apache.org/foundation/entry/the_apache_ software_foundation_announces90
Heroku Kafka,是一个分支于Heroku的Kafka管理服务。最近接近发布beta版。
https://blog.heroku.com/archives/2016/4/26/announcing-heroku-kafka-early-access
MapR博客上的一篇文章强调为什么性别多样性是重要的,还提到了大数据论坛中的女性,本文旨在鼓励女性投身于这一领域。“大数据论坛中的女性”研讨会本周由MapR组织在圣何塞召开。
https://www.mapr.com/blog/case-women-big-data
产品发布
StreamX是一个来自Qubole的开源项目,它能从Kafka拷贝数据到Amazon S3这样的目标存储中。Qubole把StreamX作为一种管理服务提供。
http://www.qubole.com/blog/big-data/streamx/
SnappyData是一个为OLAP和OLTP查询流式数据的新平台(和公司)。SnappyData由Apache Spark和GemFire的内存存储技术驱动。
http://www.infoworld.com/article/3062022/sql/apache-spark-powers-live-sql-analytics-in-snappydata.html
http://www.snappydata.io/
Apache Geode(孵化中)发布了1.0.0-incubating.M2版本,它是一个分布式数据平台,瞄准高性能和低延迟。新版本提供了广域网下的点对点连接等新特性。
http://mail-archives.apache.org/mod_mbox/incubator-geode-dev/201604.mbox/%3CCAFh%2B7k2eiK2TMGK sLqrY9CZDjxjYwiuTQ4QGUVC2s3geyJYwnA% 40mail.gmail.com%3E
Apache Knox发布了0.9.0版,它是Hadoop的REST API网关。新版本为Ranger和Ambari提供了UI界面支持,以及一些其它的提升和bug修复。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCACRbFyjRF7zShb-NQ29d3FJ0hKZ57ts0Qfo31ffuNODpskwqPQ @mail.gmail.com%3E
活动
中国
无