Hadoop周刊 第 176 期
启明星辰平台和大数据总体组编译
2016年6月29日
Hadoop峰会本周在圣何塞召开,所以很期待在下期周刊看到新项目的发布和精彩演讲(请向我们提供任何相关的幻灯片)。至于本期周刊,有大量关于Kafka Streams、从Amazon Kinesis向Google BigQuery传递流式数据、Google数据集搜索系统的文章。
技术新闻
Shine介绍了他们如何使用Amazon Lambda和Amazon Kinesis,以及为Apache web服务器提供的Kinesis代理(用于采日志),以及从EC2移动数据到Google BigQuery的内容。本文提供了Lambda函数(javascript编写)代码片段,规模和开销方面的信息,描述了如何通过gzip压缩数据从而优化传输开销。
https://blog.shinetech.com/2016/06/21/kinesis-lambda-bigquery/
Cloudera博客撰文介绍了如何通过Apache Spark、Apache Impala(孵化中)、Hue对梦之队数据进行分析。本文主要聚焦在分析上,附带了些Spark代码以及Hue的功能演示。
http://blog.cloudera.com/blog/2016/06/how-to-analyze-fantasy-sports-with-apache-spark-and-sql-part-2-data-exploration/
KDnuggets撰文介绍了13个和Apache Spark相关的主要API/项目/名词。包括RDD、DataFrame、Dataset、结构化流式计算、GraphX、Tungsten。每个条目都有一段章节介绍,足够很好的了解Spark主要特性了。
http://www.kdnuggets.com/2016/06/spark-key-terms-explained.html
本文来自Confluent博客,介绍了那些虽看起来简单却又不简单的Kafka Streams应用。例如用Kafka Streams编写结合用户点击流数据和用户位置数据的程序。后者存储在KTable中,KTable提供了类似带有数据库表主键的抽象(主键的最新值通过API暴露)。最后的程序倒是简单——只有几行代码。
http://www.confluent.io/blog/distributed-real-time-joins-and-aggregations-on-user-activity-events-using-kafka-streams
Cloudera博客撰文介绍了meinstadt.de构建在Apache Flume、Apache Spark Streaming、Apache Impala(孵化中)上的HTTP请求异常检测系统。实现代码放在了github上。
http://blog.cloudera.com/blog/2016/06/how-to-detect-and-report-web-traffic-anomalies-in-near-real-time/
AWS大数据博客有教程介绍了如何使用Apache Spark和Apache Zeppelin从Amazon EMR集群处理Amazon Kinesis流数据。本文包含了一些通过Zeppelin notebook运行SQL产生的数据可视化范例。
http://blogs.aws.amazon.com/bigdata/post/Tx3K805CZ8WFBRP/Analyze-Realtime-Data-from-Amazon-Kinesis-Streams-Using-Zeppelin-and-Spark-Strea
Apache Kudu(孵化中)接近1.0版发布了,将全面支持高可用性。本文介绍了这最后一块拼图“主复制”是如何实现的。晒了下JIRA上各种问题的跟进的情况,以及完成与剩余的测试。
http://kudu.apache.org/2016/06/24/multi-master-1-0-0.html
Google的所有数据平台拥有超过260亿的数据集,每天要添加和删除16亿的数据集路径。为了跟踪、查询、比较数据集,他们研发了Google Dataset Search(GOODS)。GOODS跟踪由API暴露的元数据,这些元数据被用于检索、监控等。
http://dl.acm.org/citation.cfm?id=2903730
其他新闻
SiliconAngle采访了Hortonworks CEO Rob Bearden。主题包括业界趋势、Hortonworks财务、Hortonworks的非Hadoop技术以及物联网。
http://siliconangle.com/blog/2016/06/24/hadoop-and-beyond-a-conversation-with-hortonworks-ceo-rob-bearden/
产品发布
Apache Sentry本周发布了1.7.0版,修复了bug,增加了新特性和其他方面的提升。本次发布把Hive授权框架升级到了第二版。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201606.mbox/%3CCAPOmu3sDqdzu9ntDSvkMaDRQnVfHrkGV5qhyh-ZRiMmwgMMvBA@mail.gmail.com%3E
基于Apache Cassandra 3.0构建的DataStax Enterprise 5.0,增加了对图数据、分层存储、Cassandra多实例的支持。本次发布也增加了诸如加密和基于角色访问控制的附加安全特性支持。
https://www.datastax.com/2016/06/introducing-datastax-enterprise-5-0
Driven,大数据应用性能监控系统发布了2.2版。本次发布的亮点是对Apache Spark的监控提供了支持。
http://www.driven.io/2016/06/driven-inc-delivering-hadoop-spark-performance-monitoring-announces-driven-2-2/
BlueData发布了他们为Amazon Web Services提供的EPIC企业大数据既服务产品。本产品通过简单的点击就能自动装载到基于Docker的Hadoop集群。
http://www.bluedata.com/blog/2016/06/big-data-as-a-service-on-prem-or-cloud-bdaas/
Apache Accumulo发布了1.7.2版。本次发布修复了write-ahead日志处理方式,优化了RFiles,以及性能上的小提升。
https://accumulo.apache.org/release_notes/1.7.2.html
Apache ZooKeeper的顶级SDK,Apache Curator发布了2.11.0和3.2.0版。
https://cwiki.apache.org/confluence/display/CURATOR/Releases#Releases-June23,2016,Releases2.11.0and3.2.0available
Apache Hive发布了2.1.0版。修复了大量bug和功能增强,包括对Hive的Live Longer和Prosper 改进和以及JDBC支持。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201606.mbox/%3C7194557D-CB5E-45B7-B905-82F27B7CB33F@apache.org%3E
活动
中国
7月2日 上海BigData Streaming第三次见面会