Hadoop周刊 第 174 期
启明星辰平台和大数据总体组编译
2016年6月12日
Spark峰会本周在旧金山召开,正如所料,本期周刊有大量关于Apache Spark的新闻、公告和版本发布。除Spark外,本期还有Kafka、Cask、Ambari方面的文章。在产品发布部分,有一年来Apache Pig首次版本更新,还一个为分布式系统设计的简洁新工具Runway,最后是新版Apache Kudu(孵化中)。
技术新闻
Debezium是一个相对较新的项目,用于数据库和Apache Kafka topic行级改变数据捕获。当面支持MySQL、Zookeeper、Kafka,这是一篇在Docker、Kubernetes容器上配置Zookeeper, Kafka, MySQL的教程。
http://debezium.io/blog/2016/05/31/Debezium-on-Kubernetes/
有些人对Apache Kafka项目宣布采用另一种流式处理引擎感到惊讶,这就是Kafka Streams。Kafka Streams与其它系统存在显著的关键差异。本文很好的示范了这些不同点——abstraction、部署模型、支持基于状态的计算。
https://softwaremill.com/kafka-streams-how-does-it-fit-stream-landscape/
每个使用MapReduce、Spark或类似系统的人都会陷入难以调试、数据特征bug这些问题中。BigDebug是UCLA(加州大学洛杉矶分校)的研究项目/论文,旨在让开发人员通过工具发现单机问题:传入参数导致的崩溃,跟踪、断点、观察点、延迟报警等。该工具支持Apache Spark 1.2.1上。
https://blog.acolyer.org/2016/06/07/bigdebug-debugging-primitives-for-interactive-big-data-processing-in-spark/
Cask撰文介绍了在开源Cask Data Application Platform (CDAP)中运行Spark的文章。运行在CDAP的Spark程序通过访问Apache Tephra(孵化中)实现细粒度事务支持。这样,就能很容易利用快照隔离实现从一个表复制到另一个表的一致性。CDAP中的Spark也能访问Cask Tracker,Cask Tracker提供数据血缘信息(什么时候创建、使用等)。根据应用的不同,CDAP工具还能发挥更大价值。
http://blog.cask.co/2016/06/cdap-spark-prototype-to-production/
IBM Hadoop Dev博客撰写了从cURL调用Ambari REST API的教程。还示范了在vanilla和启用了kerberos的集群上建立会话,并为接下来的请求复用会话。
https://developer.ibm.com/hadoop/2016/06/07/ambari-rest-calls-for-kerberos-enabled-clusters/
Google云平台博客撰文介绍了如何调试运行在Google Dataflow上的Apache Beam(孵化中)任务。为了调试性能瓶颈,Dataflow有一些有用的统计数据和UI来帮助使用者深入每一个步骤。
https://cloud.google.com/blog/big-data/2016/06/understanding-timing-in-cloud-dataflow-pipelines
其他新闻
Transaction Processing Performance Council(TPC)发布了TPCx-BB基准测试,该基准测试为大数据系统设计。除了衡量SQL外,还可以对机器学习集群和分类问题进行测试。
http://www.datanami.com/2016/06/01/big-data-benchmark-gauges-hadoop-platforms/
伦敦Strata + Hadoop世界大会两周前已召开。演讲者的专题报告和幻灯片已发布到会议网站上。
http://conferences.oreilly.com/strata/hadoop-big-data-eu/public/schedule/proceedings
Splice Machine,Hadoop上的RDBMS构建者,宣布开源他们的软件。当前,他们正在寻找贡献者/导师/豪杰来提升开源后的效果。Splice Machine有不少有趣的特性,例如ACID事务,二级索引,引用完整性。
http://www.splicemachine.com/were_going_open_source/
Altiscale博客编辑了许多关于客户服务、情感分析、气候变化、智慧城市、bias等方面的大数据应用案例文章。还收集了一些大数据怀疑论者的文章。
https://www.altiscale.com/blog/big-data-news-health-and-public-safety-sentiment-analysis-fixing-education-2/
Spark峰会本周在旧金山召开。会议组织者Databricks概述了两天内的热点内容,链接了许多的演讲和专题报告。
https://databricks.com/blog/2016/06/08/another-record-setting-spark-summit.html
大数据即服务(BDaaS)公司Qubole,撰文介绍了他们的客户如何接受使用Spark。接受速度之快——一半多的客户现在开始用Spark。Qubole也支持Presto,他们也看到了类似的增长。
https://www.qubole.com/blog/big-data/spark-usage/
Twitter向Apache孵化器提交了他们的复制日志服务DistributedLog。
https://wiki.apache.org/incubator/DistributedLogProposal
Big Data Day LA于6月9日在西洛杉矶学院召开。这次活动是免费的(如果预先注册的话),演讲者来自于Confluent、Databricks、Yahoo、Netflix等。
http://www.bigdatadayla.com/
产品发布
Apache Spark发布了Spark 2.0预览版。发布声明中说道API和功能都尚未最终敲定。
https://spark.apache.org/news/spark-2.0.0-preview.html
JustOne构建并开源了Kafka-to-PostgreSQL连接器。本文介绍了该连接器的性能,详细描述了如何把消息转换为行,还描述了如何设定配置等。
http://www.confluent.io/blog/kafka-connect-sink-for-postgresql-from-justone-database
Salesforce开源了Runway,这是一个建模、仿真以及可视化分布式系统。在runway.system上有一个在线演示环境,演示了“too many bananas”模型,电梯系统和Raft一致性系统。
https://medium.com/salesforce-open-source/runway-intro-dc0d9578e248
Bloomberg最近开源了Presto Accumulo,面向Apache Accumulo的Presto连接器。在声明中,链接了11页的论文,比较了基于的Presto查询和基于Accumulo Java API查询的基准测试结果。
http://www.bloomberg.com/company/announcements/open-source-at-bloomberg-reducing-application-development-time-via-presto-accumulo/
微软Azure发布了基于Apache Spark 1.6.1 稳定版的Azure HDInsight。本次发布支持了面向Spark的Project Livy REST任务服务支持,集成了Azure数据湖存储(基于角色的访问控制),集成了IntelliJ,支持了Jupyter笔记本等。
https://azure.microsoft.com/en-us/blog/apache-spark-for-azure-hdinsight-now-generally-available/
LinkedIn开源了Photon ML,他们的大规模回归分析库。Photon构建在Spark之上并在LinkedIn的YARN上运行(过去基于MapReduce,似乎因为要提升性能才迁移)。
https://engineering.linkedin.com/blog/2016/06/open-sourcing-photon-ml
Hortonworks发布了Spark-HBase连接器的技术预览版。预览版原生支持Avro,支持运行安全集群,原生支持Spark Datasource API,并优化了分区修剪,列修剪,谓词下推。
http://hortonworks.com/blog/spark-hbase-dataframe-based-hbase-connector/
Databricks发布了Apache Spark平台的第一阶段安全特性。本阶段对集群ACL、SAML 2.0进行了支持,端对端的审计日志。
https://databricks.com/blog/2016/06/08/achieving-end-to-end-security-for-apache-spark-with-databricks.html
Apache ORC 1.1.0版发布了。本次发布完成了从基于Apache Hive的代码到基于Java的代码迁移,修正了C++时间戳处理程序,增加了Hadoop MapReduce连接器。
http://orc.apache.org/news/2016/06/10/ORC-1.1.0/
Apache Kudu发布了0.9.0版。增加了UPSERT命令,新的Spark数据源不会依赖MapReduce API,提升了Tablet Server写性能。
http://getkudu.io/2016/06/10/apache-kudu-0-9-0-released.html
Google云服务平台团队发布了支持Spark 2.0预览版的Google Cloud Dataproc。
https://cloud.google.com/blog/big-data/2016/06/google-cloud-dataproc-the-fast-easy-and-safe-way-to-try-spark-20-preview
Dory(Bruce的继承者)Kafka producer的守护进程,现在支持从UNIX domain sockets或本地TCP接收数据了。
http://mail-archives.apache.org/mod_mbox/kafka-users/201606.mbox/%3C1465683894.608424023@apps.rackspace.com%3E
Apache Pig 0.16.0版,一年来首次发布。坚定了对Tez的支持。
http://pig.apache.org/releases.html#8+June%2C+2016%3A+release+0.16.0+available
活动
中国
Spark Meetup (上海) – 周六, 6月18日