Hadoop周刊 第 175 期
启明星辰平台和大数据总体组编译
2016年6月19日
Hadoop峰会已过去一周了,我们已看到有多个产品(项目)敲定了发布时间。所以在技术新闻部分,有关于Hadoop Kerberos认证的内容另外还有Salsify应用Avro的文章。在产品发布部分,包括Yandex新近开源的列式数据库在内的多个项目均有新版本发布。
技术新闻
OpenCore博客撰文示范了多种Hadoop Kerberos认证协议调试工具。尤其示范了如何使用UserGropuInformation的“main()”方法导出一些有用的调试信息。
http://www.opencore.com/blog/2016/5/user-name-handling-in-hadoop/
YARN系列文章的第四部分,Cloduera博客介绍了如何配置公平调度队列。尤其对资源约束设置、队列安置策略和抢占进行了详解。
http://blog.cloudera.com/blog/2016/06/untangling-apache-hadoop-yarn-part-4-fair-scheduler-queue-basics/
Salsify基于Apache Kafka构建了一个异步微服务架构,并采用Apache Avro进行数据序列化。该应用使用Ruby开发,他们创建了多个新工具使得Avro能和Ruby语言很好的配合。本文介绍了这些工具和它们的价值:avro-builder用于定义记录、基于postgres的模式注册表,avromatic则从avro schema生成模型。
http://blog.salsify.com/engineering/adventures-in-avro
Apache Drill可以动态推断模式,还支持多模式(但相互兼容)数据。这种组合使得一些有趣的用例得以实现,例如跨多个不同模式的json文件查询。MapR博客探究了这些特性并进行了示范。
https://www.mapr.com/blog/sql-query-mixed-schema-data-using-apache-drill
本教程展示了如何将Druid与Apache Kafka结合构建流式分析和可视化(借助Pivot,Druid的web UI)应用。
http://www.confluent.io/blog/building-a-streaming-analytics-stack-with-apache-kafka-and-druid
Apache Beam(孵化中)博客撰文介绍了他们在连接Apache Flink批处理集群方面的成果。Beam是一个开源SDK,最初来自于Google,用于暴露后端未知数据管道API。
http://beam.incubator.apache.org/blog/2016/06/13/flink-batch-runner-milestone.html
Cask Hydrator是一个通过UI界面采用拖拽方式构建数据管道的工具。本教程也演示了如何使用Hydrator把数据从MySQL导入到HDFS。
http://blog.cask.co/2016/06/bringing-relational-data-into-data-lakes/
Databricks撰文介绍了即将发布的Apache Spark 2.0中新的SQL子查询功能。有趣的是,本文以手册形式呈现,最直截了当的展现了代码和范例数据。
https://databricks.com/blog/2016/06/17/sql-subqueries-in-apache-spark-2-0.html
Apache Kudu(孵化中)博客撰写了在单集群节点使用Raft的文章,借此动态扩展到多主节点集群。
http://getkudu.io/2016/06/17/raft-consensus-single-node.html
其他新闻
本文指出Apache Spark社区如果不用心经营,可能会重走因碎片化导致Apache Hadoop生态系统混乱的老路。举例来说,最新版本的CDH和HDP支持不同版本的Spark。
https://techcrunch.com/2016/06/12/spark-fragmentation-undermines-community/
New Stack撰写了一篇关于Concord的文章,Concord是一个构建在Apache Mesos上新的流式处理框架(公开测试状态)。Concord使用C++开发,支持动态拓扑(无需停机实现管道的增加和减少)。
http://thenewstack.io/concord-leverages-mesos-high-performance-stream-processing/
随着Databricks社区版的正式发布,Databricks发布了使用Databricks编写Apache Spark应用程序系列教程的第一篇。
https://databricks.com/blog/2016/06/15/an-introduction-to-writing-apache-spark-applications-on-databricks.html
Hadoop圣何塞峰会于几周前召开,期间举行了题为“大数据行业中的女性”专场午宴。Hortonworks博客特意采访了午宴主持人Hortonworks CMO:Ingrid Burton。
http://hortonworks.com/blog/summer-hortonworks-part-2-wibd-assertive-innovative-take-risks/
产品发布
Apache SystemML(孵化中)最近发布了0.10.0版。SystemML是一个机器学习框架,由多个项目在背后支撑,包括Apache Spark和Apache Hadoop。本次发布包括新的Spark Matrix Block类型、支持深度学习、性能上的提升、新的KNN算法等等。
http://systemml.apache.org/0.10.0-incubating/release_notes.html
Apache Mahout,另一个机器学习框架发布了0.12.2版。本次发布向着集成Apache Zeppelin可视化和支持notebook的目标迈进了一步。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201606.mbox/%3CCAOtpBjgBAuQs5FiX5X_5A+Rd-A1fVz0R7SKttGe4cJuCLRiGww@mail.gmail.com%3E
Qubole宣布他们的HBase-as-a-Service已经在AWS上提供。它为长时运行集群提供了许多漂亮的特性。支持Hannibal和其它监控工具,集成了Apache Zeppelin,并能通过节点引导程序与OpenTSDB和Apache Phoenix配置。
https://www.qubole.com/blog/product/quboles-hbase-as-a-service-is-generally-available-on-aws/
Altiscale发布了Altiscale Insight Cloud实时版。本系统由Apache HBase和Spark Streaming支撑。
https://www.altiscale.com/blog/announcing-the-altiscale-insight-cloud-real-time-edition/
`hs2client`是一个为Apache Hive和Apache Impala(孵化中)提供的新C++库。除了支持C++,这个库还绑定了python,可以在pandas中把数据读到DataFrame。
http://blog.cloudera.com/blog/2016/06/announcing-hs2client-a-fast-new-c-python-thrift-client-for-impala-and-hive/
MapR在其发行版中支持了Apache Spark 2.0开发者预览版。
https://www.mapr.com/blog/spark-20-now-developer-preview-mode-mapr-platform
Apache Beam发布了其0.1.0孵化版,是本项目加入Apache孵化器以来首次发布。
http://beam.incubator.apache.org/beam/release/2016/06/15/first-release.html
Yandex开源了ClickHouse,一个列式分析数据库。本系统为横向和纵向扩展而生。支持复杂数据类型(例如数组)和近似查询。该团队还发布了与其它数据库相比的基准测试结果。
https://clickhouse.yandex/
活动
中国