Hadoop周刊 第 169 期
启明星辰平台和大数据整体组编译
2016年5月8日
本周内容短小精练。主题覆盖Apache Beam、MapR季度业绩、最近的Kafka峰会,以及来自Cloudera新开源的分布式单元测试框架。
技术新闻
Elastic分析了宕机事件的根源。错误配置ZooKeeper内存设置会引起过度的GC,这将从根本上导致ZooKeeper集群丢失。文章介绍了一些缓解策略,用来防止未来类似问题的发生。
https://www.elastic.co/blog/elastic-cloud-outage-april-2016
Cask博客简明扼要的归纳了最近Big Data Applications Meetup的花絮。首先出场的是Pachyderm,它基于Docker容器提供“数据Git”语义。第二个出场的是TubeMogul大数据平台,TubeMogul构建于Hadoop、Hive、Spark、Presto之上。
http://blog.cask.co/2016/05/pachyderm-and-tubemogul-share-their-big-data-application-platforms-and-experience/
Google、dataArtisans同时撰文介绍了Apache Beam(前生是Google Dataflow SDK)。Google的文章解释了为何开源和开发Beam的动机,dataArtisans的文章介绍他们对Beam模型的支持以及怎样考虑Flink和Beam API之间的关系。
https://cloud.google.com/blog/big-data/2016/05/why-apache-beam-a-google-perspective
http://data-artisans.com/why-apache-beam/
IBM Hadoop dev博客有个关于安装Python、Scala和为Jupyter notebook嵌入R内核的操作说明。同时,也说明了怎样连接Spark和通过SSL暴露notebook。
https://developer.ibm.com/hadoop/blog/2016/05/04/install-jupyter-notebook-spark/
本文介绍了Mongo Hadoop的连接函数是如何窜起Spark和MongoDB的。
https://x.ai/using-the-mongo-hadoop-connector-as-a-translation-layer-to-spark/
Qubole博客撰文比较了用于大数据分析的流行编程语言—Python、R和Scala。
http://www.qubole.com/blog/big-data/programming-language/
其他新闻
MapR宣布本季度他们授权下单创纪录的增长了99%,以及146%的美元净增长率。
https://www.mapr.com/company/press-releases/mapr-achieves-another-record-quarter-99-software-subscription-license-growth
本文描述了最近Google Cloud Dataflow和Apache Spark在Google Compute Engine上的基准测试表现。Dataflow胜过Spark2-5.7倍(一直以来,最好是在自己的环境下评估工作负载,而不是一味的信任基准测试)。本文还解释了一种“冷战”,通过它使每个使用大数据工具的人获益。
http://www.datanami.com/2016/05/02/dataflow-tops-spark-benchmark-test/
Confluent博客回顾了最近召开的Kafka峰会,包括编程挑战预选赛,主题演讲,分组会议等等。
http://www.confluent.io/blog/log-compaction-kafka-summit-edition-may-2016
福布斯介绍了美国运通在过去5年间采用大数据技术的历程。本文中,美国运通分享了一些技巧和学到的经验教训,例如采用新技术的困难(得到组织高层的认同是多么的重要),以及雇佣和留住工程师的挑战等等。
http://www.forbes.com/sites/ciocentral/2016/04/27/inside-american-express-big-data-journey/
产品发布
Cask发布了Cask Data Application Platform (CDAP)3.4版本。新版本增加了Cask Tracker,新的数据集成/审计/搜索系统,升级了Cask Hydrator的UI,增强了对Spark的支持等等。
http://blog.cask.co/2016/05/announcing-cdap-release-3-4-introducing-tracker-next-gen-hydrator-enhanced-spark-support-and-much-more/
Cloudera开源了“dist_tes”,并行执行单元测试的新工具。通过该工具,对Hadoop和Kudu项目进行单元测试,可以在数分钟而不是数小时内完成。该工具绑定了C++和Java,并在网站上演示了这些特性。
http://blog.cloudera.com/blog/2016/05/quality-assurance-at-cloudera-distributed-unit-testing/
Google宣布Google BigQuery和Drive可集成在一起,把输出保存到Google sheets。
http://techcrunch.com/2016/05/06/google-connects-bigquery-to-google-drive-and-sheets/
活动
中国
无