Hadoop周刊
第 165 期 2016年4月10日
启明星辰——平台和大数据整体组编译
本周,包括LinkedIn 和Airbnb新开源项目在内的数个产品进行了重大版本发布。本期技术部分与流式处理有关——Spark、Flink、Kafka等等;新闻部分是关于Spark Summit 和HbaseCon的会议议程。
技术
Zalando发表了他们是如何选择Apache Flink作为流式处理框架的文章。该文章阐述了对评价标准进行验证后得出的结论,阐明了选择Apache Flink的主因—在高吞吐量的情况下依然能保持低延迟,真正的流式处理,开发人员支持。
https://tech.zalando.com/blog/apache-showdown-flink-vs.-spark/
Cloudera博客刊登了来自Wargaming.net的文章,通过本文可了解到他们如何通过Kafka、HBase、Drools、Spark构建实时处理基础设施的。另外,在数据流程方面,他们介绍了如何对HBase的检索和序列化、HBase和Spark之间的数据本地化以及Spark计算方面的优化措施。
http://blog.cloudera.com/blog/2016/04/inside-wargamings-data-driven-real-time-rules-engine/
InfoQ发布了大规模流式处理—SMACK(Spark、Mesos、Akka、Cassandra以及 Kafka)栈的介绍视频。讨论了为什么SMACK栈在处理同样问题的时候比Lambda架构更简单。
http://www.infoq.com/presentations/stream-analytics-scalability
Confluent“日志压缩”系列博文又有更新,介绍了Kafka项目三月份发生的事情。有不少令人关注的开发内容,包括机架感知、Kerberos支持、基于时间索引方面的进展。以及不少你(我也是)没有时间持续关注的最新研发成果。
http://www.confluent.io/blog/log-compaction-highlights-in-the-kafka-and-stream-processing-community-april-2016
Apache Flink 1.0引入了新的复杂事件处理(CEP)库。啰嗦几句,CEP提供了一种检测事件模式的方法。本文借助传感器从数据中心服务器上收集数据,运用一种可能的异常检测用例,诠释了Flink的CEP模式API 。
http://flink.apache.org/news/2016/04/06/cep-monitoring.html
Genome Analysis Toolkit (GATK)最近宣布,下一个版本(当前是alpha)将支持Apache Spark。本文简要介绍了工具箱并展示了怎样通过Spark来检测重复DNA片段的。
http://blog.cloudera.com/blog/2016/04/genome-analysis-toolkit-now-using-apache-spark-for-data-processing/
InfoWorld综述了Spark2.0关于结构化流式处理方面的计划。微批处理将依然延续,还有些新特性,例如无限数据帧(Infinite DataFrames)、一流的重复查询支持。
http://www.infoworld.com/article/3052924/analytics/what-sparks-structured-streaming-really-means.html
AWS大数据博客发布了一篇通过存储在AWS Key Management Service (KMS)中的加密密钥加载数据到S3和Redshift的文章。除了描述所需步骤,本文还介绍了如何在AWS S3中通过KMS密钥加密数据。
http://blogs.aws.amazon.com/bigdata/post/Tx2Q3ZBOZO9DHVQ/Encrypt-Your-Amazon-Redshift-Loads-with-Amazon-S3-and-AWS-KMS
Confluent博客介绍了如何使用Kafka Connect 和 Kafka Streams 编写非凡的“hello world”程序。更确切地说,范例程序从IRC拉维基百科数据,并解析消息、进行多方面的统计计算。本文还用了若干程序展示了整个实现过程。
http://www.confluent.io/blog/hello-world-kafka-connect-kafka-streams
本文从Postgres 向 Cassandra转换简单的模式(schemas),并描述了主要的差异—复制、数据类型(Cassandra不支持JSON)、主键、最终以一致性。
http://neovintage.org/2016/04/07/data-modeling-in-cassandra-from-a-postgres-perspective/
新闻
ESG博客报导了最近Strata+Hadoop World大会的情况。并有些重点关注,例如Spark的良好势头、机器学习、云服务。
http://blog.esg-global.com/riding-high-at-stratahadoop-world
InformationWeek也报导了Strata大会,关注了MapR和Pivotal的关灯片、人工智能等。
http://www.informationweek.com/big-data/ai-public-data-sets-real-time-strata-+-hadoop-keynote-sampling/d/d-id/1324943?
Spark Summit 2016议程敲定,将于6月6-8日在旧金山举行。会议将有两天展开五个方向的讨论。
https://databricks.com/blog/2016/04/04/agenda-announced-for-sparksummit-2016-in-san-francisco.html
福布斯采访了Cloudera CEO Tom Reilly,他讨论了公司的机遇、竞争性市场、上市计划等。
http://www.forbes.com/sites/roberthof/2016/04/06/ceo-tom-reilly-makes-the-case-for-cloudera-and-its-ipo/
Datanami撰文将正在崛起的Apache Kafka作为流式处理的支柱。文章还采访了Confluent联合创始人兼CTO Neha Narkhede,坊间她表示最近将推出Kafka Connect 和 Kafka Streams。
http://www.datanami.com/2016/04/06/real-time-rise-apache-kafka/
HBaseCon将于5月24日在旧金山召开,最近议程才正式宣布。在三个方向上,将有20个以上的议题要讨论。
http://blog.cloudera.com/blog/2016/04/hbasecon-2016-speaker-lineup-announced/
发布
Apache HBase 0.98.18 和1.1.4最近都发布了。1.1.4上有包括九个或正确性在内的若干修复。HBase 0.98.18羞答答的仅解决了50个问题(bug、改善两个新特性)。
http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCANZa%3DGu-mAxKEtfoRjctHcE0KD7z52oE010Fgsf6AMmW2tDZLA%40mail.gmail.com%3E
http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCA%2BRK%3D_CtZ1L07nS6Og2ekfVwet0qTE7jw-bmyD2pp5UPweUehQ%40mail.gmail.com%3E
Apache Lens发布了2.5.0-beta,作为统一分析接口,它已经支持Hadoop生态系统的执行引擎数据存储了。本次发布解决了87票,主要是bug修复和实现新功能。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAL3kmZj60kpopRPpOVEs9o7oTg7YuaC_=c8zncBeMyUESrZsmQ@mail.gmail.com%3E
Airbnb 开源了 Caravel,数据探索系统(数据可视化平台)。Caravel支持多种在商业产品上才能看到的特性,能够连接到任意只要支持SQL方言的系统。尤其它支持面向Druid的实时分析。
https://medium.com/airbnb-engineering/caravel-airbnb-s-data-exploration-platform-15a72aa610e5
MapR 宣布支持Apache Drill 1.6作为他们的分布式系统。比较有亮点的发布有MapR-DB新存储插件、新SQL窗口函数支持以及端对端安全。在网页介绍部分,有些使用MapR-DB API加载数据并通过Drill查询的例子。
https://www.mapr.com/blog/apache-drill-16-mapr-converged-platform-gearing-new-generation-stack-json-enabled-big-data
Apache Flink发布了修复bug后的1.0.x。这次发布解决了23个问题,推荐所有1.0.0的用户升级。
http://flink.apache.org/news/2016/04/06/release-1.0.1.html
Cloudera Enterprise 5.7发布附带了Spark、HBase、Impala、Kafka等组件版本的升级。本次发布的亮点包括从Cloudera Labs 新鲜推荐的Hive-on-Spark、HBase-Spark、Impala性能重要提升,支持SSD 上HBase WAL。
http://blog.cloudera.com/blog/2016/04/cloudera-enterprise-5-7-is-released/
Apache Tajo,构建在Hadoop上的数据仓库系统,发布了0.11.2版。新版本支持了Kerberos,修复了ORC表对Hive的支持等。
http://tajo.apache.org/releases/0.11.2/announcement.html
LinkedIn 开源了 Dr. Elephant,里面的工具能诊断Hadoop和Spark任务的性能问题。基于metrics从YARN资源管理器收集已完成任务数据,Dr. Elephant评估后生成诊断报表,内容包括数据错位、GC开销等。LinkedIn宣称借助它能解决80%的问题。
https://engineering.linkedin.com/blog/2016/04/dr-elephant-open-source-self-serve-performance-tuning-hadoop-spark
活动
中国
无