Hadoop周刊 第 171 期
启明星辰平台和大数据总体组编译
2016年5月22日
本周,包括LinkedIn新开源项目在内的几个项目都有版本发布。在技术新闻和其他新闻方面,多篇文章回顾了Apache: Big Data North America会议,另外有一组跨越多个不同数据系统分析纽约出租车数据的系列文章。
技术新闻
Databricks博客分析了Apache Spark中两种逼近算法。之一,“approxCountDistict”是用来评估不同值的数量;之二,“approxQuantile”用于生成逼近百分比。本文介绍了算法和可视化精度不同的残差。
https://databricks.com/blog/2016/05/19/approximate-algorithms-in-apache-spark-hyperloglog-and-quantiles.html
本教程描述了如何使用Apache Hadoop HDFS、Apache Solr、Hue存储、索引、查询DICOM格式的医学影像。文章贯穿了加载和获取数据的整个步骤。
http://blog.cloudera.com/blog/2016/05/how-to-process-and-index-medical-images-with-apache-hadoop-and-apache-solr/
MapR Streams是一个API兼容Apache Kafka的系统。本文在宏观上比较了MapR Streams和Kafka的异同。同时阐明了Kafka Streams怎样和MapR Streams扯上关系的。
https://www.mapr.com/blog/apache-kafka-and-mapr-streams-terms-techniques-and-new-designs
本文在我看来是最清晰介绍Paxos的文章之一,Paxos为分布式系统构建了一致性协议。本文用绘图计算机和分布式拍卖示范了这个协议。
http://ifeanyi.co/posts/understanding-consensus/
基于Apache: Big Data North America会议上的一篇演讲。Datanami窥探了即将发布的Apache Hadoop 3的新特性。包括,shell脚本重写、任务集本地优化、内存大小自动伸缩能力、支持HDFS erasure codings。本文着重在erasure codings上,文章密切关注了erasure codings在存储效率方面的提升(3x磁盘消耗降低到1.5x)。
http://www.datanami.com/2016/05/18/hadoop-3-poised-boost-storage-capacity-resilience-erasure-coding/
这篇演讲来自于PyData柏林会议,描述了Apache Arrow和Feather文件格式,探究了数据在跨语言/框架互操作性的工作机制。
http://www.slideshare.net/wesm/python-data-ecosystem-thoughts-on-building-for-the-future
发布了两个来自于不同会议与Apache Kafka有关的演讲视频。第一个讨论了Kafka的安全特性,第二个探索了Kafka如何跨系统共享数据。
https://www.oreilly.com/learning/securing-apache-kafka
https://www.infoq.com/presentations/event-streams-kafka
这篇博客集成了数篇利用Amazon Redshift、Google BigQuery、Postgres、Presto数据系统加载/查询纽约出租车数据的文章。除了原始基准测试,还详细介绍了如何处理故障、优化、比较替代方案(AWS的S3与HDFS比)。
http://tech.marksblogg.com/all-billion-nyc-taxi-rides-redshift.html
O'Reilly撰文介绍了通过Kafka、Flink、Elasticsearch、Kibana怎样实现kappa架构。文章概述了lambda和kappa架构,介绍了主要的架构组件,以及怎样设置使用贝叶斯模型发现新奇事物。
http://www.oreilly.com/ideas/applying-the-kappa-architecture-in-the-telco-industry
其他新闻
本文列举了最近在Apache: Big Data North America会议上提到的几个大数据生态系统项目。有不少是我们没纳入视线的内容。
http://www.datanami.com/2016/05/11/open-source-tour-de-force-apache-big-data-2016/
Pivotal博客有一篇关于大数据和敏捷开发有趣的文章。大数据系统往往停留在非敏捷的世界,例如在装载数据前需求要收集到位,模型要定义好。本文认为,没有在云环境中经过长期验证的话,要对这种方式进行约束(有限的能力和性能、竖井式数据等)。
https://blog.pivotal.io/big-data-pivotal/features/when-it-comes-to-big-data-cloud-and-agility-go-hand-in-hand
Databricks发布了他们记录的网络会议视频“Apache Spark MLlib: From Quick Start to Scikit-Learn”。除了视频内容,他们还在会议中解答了八个常见问题。
https://databricks.com/blog/2016/05/18/spark-mllib-from-quick-start-to-scikit-learn.html
Hortonworks博客回顾了Apache Storm的历史。2011年开源,2013年进入Apache孵化器,2014年成为顶级项目,今年初发布了1.0版。本文论述了每个里程碑的主要技术进步。
http://hortonworks.com/blog/brief-history-apache-storm/
HBaseCon本周在旧金山召开。这次会议,Apple、Yahoo、Facebook都有演讲材料。
http://hbasecon.com
MapR发图庆祝了过去一年中Apache Drill取得的成绩。一年中发布了7个版本,完成了多个里程碑。
https://www.mapr.com/blog/happy-anniversary-apache-drill-what-difference-year-makes
Datanami发布了在Apache: Big Data North America会议上,ASF总监Jim Jagielski和ODPi项目总监John Mertic的问答录,如大家所料,主要话题还是ASF和ODPi的关系。
http://www.datanami.com/2016/05/20/apache-foundation-keeps-eyes-wide-open-odpi/
产品发布
LinkedIn开源了Ambry,他们的ObjectStore分布式系统。Ambry代码已提交到github,这篇博文介绍了Ambry的服务承诺,设计目标,体系架构和接口。
https://engineering.linkedin.com/blog/2016/05/introducing-and-open-sourcing-ambry---linkedins-new-distributed-
由apache HAWQ(孵化中)驱动的Pivotal HDB 本周发布了2.0版,HDB为Hadoop提供了分析数据库。
https://blog.pivotal.io/big-data-pivotal/products/fail-fast-and-ask-more-questions-of-your-data-with-hdb-2-0
Apache Mahout本周发布了0.12.1版,Mahout是一个机器学习和数据挖掘系统。本次发布旨在推进Flink与Mahout的集成。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCAOtpBjhshagyLN3Qnt0xRnc7YbnMVJjTS4piVXL7LiS2pQguXw@mail.gmail.com%3E
Apache Tajo发布了0.11.3版。Tajo是Hadoop的数据仓库。本次发布修正了5个bug。
http://tajo.apache.org/releases/0.11.3/announcement.html
MongoDB为Apache Spark发布了新的MongoDB Connector。除了对应Spark的Hadoop InputFormat shim外,该Connector还有其他特性。最后,还解释了MongoDB一些关键特性。
https://www.mongodb.com/blog/post/mongodb-connector-for-apache-spark-announcing-early-access-program-and-new-spark-training
http://rosslawley.co.uk/introducing-a-new=mongodb-spark-connector/
SyncSort发布了DMX-h v9,支持Kafka以及新的智能执行框架。
http://insidebigdata.com/2016/05/20/syncsorts-latest-innovations-simplify-integration-of-streaming-data-in-spark-kafka-and-hadoop-for-real-time-analytics/
活动
中国
无