Hadoop周刊—第 172 期

Hadoop周刊第 172 期

启明星辰平台和大数据总体组编译

2016年5月22日

本周主要关注流式计算—— Twitter和Cloudera介绍了他们新的流式计算框架，有文章介绍了Apache Flink的流式SQL，DataTorrent介绍了Apache Apex容错机制，还有Concord这样新的流式计算框架，另外还有Apache Kafka的0.10版。其他新闻方面，Apache孵化器有新动向——Apache TinkerPop和Apache Zeppelin孵化成为顶级项目，Tephra进入孵化器。除了上述内容，Apache Spark、Apache HBase、Apache Drill、Apache Ambari等也有新文章。

技术新闻

DataTorrent博客撰文介绍了Apache Apex在读写数据文件时的容错机制。Apex是专门处理流式数据的，流式计算有一些微妙但重要的细节需要考虑。例如使用HDFS输出时，HDFS的租约机制会引发问题。

https://www.datatorrent.com/blog/fault-tolerant-file-processing/

Databricks博客介绍了Spark 2.0中Tungsten代码生成引擎带来的性能提升。博文举例说明了由于虚拟函数的管理，更好地利用CPU寄存器和循环展开，所以代码生成引擎能更快的生成代码。除了Databricks的博文外，Morning Paper还谈到以上技术其实是受到VLDB论文的启发。

https://databricks.com/blog/2016/05/23/apache-spark-as-a-compiler-joining-a-billion-rows-per-second-on-a-laptop.html

https://blog.acolyer.org/2016/05/23/efficiently-compiling-efficient-query-plans-for-modern-hardware/

StreamScope是微软流式处理系统，是Morning Paper本周撰写的另一个流式计算文章。介绍了该系统的特征——吞吐量/集群大小、编程模型(SQL)、时间模型、语义学/保证，以及微软产品中的应用。

https://blog.acolyer.org/2016/05/24/streamscope-continuous-reliable-distributed-processing-of-big-data-streams/

Apache博客撰文介绍了HubSpot团队对Apache HBase的G1GC调优方面的经验。本文回顾HubSpot如何尝试和保障稳定性、如何保障99%的性能、如何缩短花在垃圾回收上的时间。该团队使用很多技巧，很好地决绝了错综复杂的GC算法。本文最后，还一步步示范了HBase的G1GC调优。

https://blogs.apache.org/hbase/entry/tuning_g1gc_for_your_hbase

LinkedIn撰文阐述了调试Kafka偏移量管理问题的诸多困难。本文聚焦了两个所谓"offset rewind"事件的症状，如何在监控过程中检测到这类事件，以及导致这两个事件的根本原因（及解决方案）。

https://engineering.linkedin.com/blog/2016/05/kafkaesque-days-at-linkedin--part-1

Databricks博客发布了使用Apache Spark进行基因变异分析系列文章的第三部分也是最后一篇。本文从准备（把文件转换到Parquet并加载进Spark RRD）到如何加载基因型数据再到运行kmeans聚类算法基于基因型特征预测地理种群。

https://databricks.com/blog/2016/05/24/predicting-geographic-population-using-genome-variants-and-k-means.html

许多批处理大数据生态系统已从自定义API回到SQL上，所以如果流式处理框架也发生了同样的变化，一定很有趣。本文，Apache Flink团队介绍他们计划支持流式SQL。Flink已经有了Table API，他们利用Apache Calcite提供了对SQL的支持。对于windowing，他们计划用Calcite的流式SQL扩展。最初对SQL的支持将在1.1.0版中体现，在1.2.0版加强。

http://flink.apache.org/news/2016/05/24/stream-sql.html

本文介绍了Apache Drill的XML插件。尽管还没有和Drill集成在一起，但它相当容易被编译成jar和配置对XML的支持。

https://www.mapr.com/blog/how-use-xml-plugin-apache-drill

Hortonworks博客简略介绍了Ambari监控度量系统的架构，最近加入了Grafana作为其前端仪表盘。该系统使用Apache Phoenix和Apache HBase作为存储支撑，所以是可以横向扩展的。

http://hortonworks.com/blog/hood-ambari-metrics-grafana/

这篇教程介绍了怎样在Amazon EMR上使用Spark SQL与Hue、Apache Zeppelin配合运行SQL查询存储在S3中跨制表符分割的数据。本文最后展示了如何从Spark向DynamoDB存储数据。

http://blogs.aws.amazon.com/bigdata/post/Tx2D93GZRHU3TES/Using-Spark-SQL-for-ETL

Heroku团队分享了他们使用最新版Apache Kafka的体验——才引入的timestamp字段（8字节）会导致一些反直觉的性能变化。

https://engineering.heroku.com/blogs/2016-05-27-apache-kafka-010-evaluating-performance-in-distributed-systems/

其他新闻

O'Reilly数据播客秀就Spark 2.0中结构化流式计算方面的问题采访了来自Databricks的Michael Armbrust。网站上的一篇文章选择引用了其中的话题—— Spark SQL、结构化流式计算的目标、端到端管道的保证、对在线处理运用Spark机器学习算法。

https://www.oreilly.com/ideas/structured-streaming-comes-to-apache-spark-2-0

本周两个大数据项目从Apache孵化器孵化完成——Apache TinkerPop和Apache Zeppelin。TinkerPop是图计算框架，Zeppelin是面向数据分析基于web的notebook。

https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces91

https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces92

Tephra，HBase的事务引擎进入了Apache孵化器。Tephra最初由Cask的团队创建，目前仅和Apache Phoenix进行了集成。

http://blog.cask.co/2016/05/tephra-a-transaction-engine-for-hbase-moves-to-apache-incubation/

TechRepublic撰文介绍了Concord.io，一个由C++开发的流式处理框架。旨在填补高性能流式计算市场的空缺。

http://www.techrepublic.com/article/could-concord-topple-apache-spark-from-its-big-data-throne/

产品发布

Apache Avro本周发布了1.8.1版。修复了超过20个bug和一些其它进步。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCAO4re1nYMm79WQ2LUeODWjHmJ9EiYOF=mty6p2aiq-S_4R95iQ@mail.gmail.com%3E

Confluent发布了基于librdkafka开发的Kafka Python客户端。

https://pypi.python.org/pypi/confluent-kafka/0.9.1.1

伴随着新的Kafka 流式计算方式，Apache Kafka 0.10版发布了。新版本支持了机架感知和消息中的timestamp，提升了SASL和Kafka Connect等。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCAPuboUuRyCRxDp5CLjv2yVM77SpYFF+HdnBeiiyeumYTJNpY4g@mail.gmail.com%3E

Confluent发布了基于Apache Kafka 0.10的Confluent Platform 3.0版。除了Kafka的核心特性，Confluent Platform还有一个商业组件为Kafka Connect提供配置工具和端到端流监控。

http://www.confluent.io/blog/announcing-apache-kafka-0.10-and-confluent-platform-3.0

Apache Kylin，大数据OLAP引擎，发布了1.5.2版。作为一次补丁级的发布，1.5.2有不少新特性/提升/bug修复，包括支持CDH 5.7和MapR。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCA+LQBaTDxb4wVYVvtOC22gMbJ0p9cvhAWzEY_x2n1oNGvEDPSQ@mail.gmail.com%3E

Twitter开源了他们的流式处理系统Heron。Heron是Twitter用于替换Apache Storm的产品，发力点在性能、调试以及开发人员生产率。

https://blog.twitter.com/2016/open-sourcing-twitter-heron

Envelope是来自于Cloudera Labs的新项目，它提供了基于配置文件的流式ETL处理过程。构建在Spark streaming之上，Envelope最近正在研发面向Kafka和Kudu的连接器。

http://blog.cloudera.com/blog/2016/05/new-in-cloudera-labs-envelope-for-apache-spark-streaming/

活动

中国

Spark Meetup 4 (杭州) – 周日, 6月5日

http://www.meetup.com/Hangzhou-Apache-Spark-Meetup/events/231071384/

posted on 2016-06-09 00:11 Rosen 阅读(878) 评论(0) 编辑收藏

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理

成都心情

公告

留言簿(15)

随笔分类(91)

随笔档案(99)

文章分类(2)

友情链接

积分与排名

最新评论

阅读排行榜

评论排行榜