成都心情

BlogJava :: 首页 :: :: 联系 :: 聚合

:: 管理 ::

98 随笔 :: 2 文章 :: 501 评论 :: 1 Trackbacks

Hadoop周刊—第 169 期

Hadoop周刊第 169 期

启明星辰平台和大数据整体组编译

2016年5月8日

本周内容短小精练。主题覆盖Apache Beam、MapR季度业绩、最近的Kafka峰会，以及来自Cloudera新开源的分布式单元测试框架。

技术新闻

Elastic分析了宕机事件的根源。错误配置ZooKeeper内存设置会引起过度的GC，这将从根本上导致ZooKeeper集群丢失。文章介绍了一些缓解策略，用来防止未来类似问题的发生。

https://www.elastic.co/blog/elastic-cloud-outage-april-2016

Cask博客简明扼要的归纳了最近Big Data Applications Meetup的花絮。首先出场的是Pachyderm，它基于Docker容器提供“数据Git”语义。第二个出场的是TubeMogul大数据平台，TubeMogul构建于Hadoop、Hive、Spark、Presto之上。

http://blog.cask.co/2016/05/pachyderm-and-tubemogul-share-their-big-data-application-platforms-and-experience/

Google、dataArtisans同时撰文介绍了Apache Beam（前生是Google Dataflow SDK）。Google的文章解释了为何开源和开发Beam的动机，dataArtisans的文章介绍他们对Beam模型的支持以及怎样考虑Flink和Beam API之间的关系。

https://cloud.google.com/blog/big-data/2016/05/why-apache-beam-a-google-perspective

http://data-artisans.com/why-apache-beam/

IBM Hadoop dev博客有个关于安装Python、Scala和为Jupyter notebook嵌入R内核的操作说明。同时，也说明了怎样连接Spark和通过SSL暴露notebook。

https://developer.ibm.com/hadoop/blog/2016/05/04/install-jupyter-notebook-spark/

本文介绍了Mongo Hadoop的连接函数是如何窜起Spark和MongoDB的。

https://x.ai/using-the-mongo-hadoop-connector-as-a-translation-layer-to-spark/

Qubole博客撰文比较了用于大数据分析的流行编程语言—Python、R和Scala。

http://www.qubole.com/blog/big-data/programming-language/

其他新闻

MapR宣布本季度他们授权下单创纪录的增长了99%，以及146%的美元净增长率。

https://www.mapr.com/company/press-releases/mapr-achieves-another-record-quarter-99-software-subscription-license-growth

本文描述了最近Google Cloud Dataflow和Apache Spark在Google Compute Engine上的基准测试表现。Dataflow胜过Spark2－5.7倍（一直以来，最好是在自己的环境下评估工作负载，而不是一味的信任基准测试）。本文还解释了一种“冷战”，通过它使每个使用大数据工具的人获益。

http://www.datanami.com/2016/05/02/dataflow-tops-spark-benchmark-test/

Confluent博客回顾了最近召开的Kafka峰会，包括编程挑战预选赛，主题演讲，分组会议等等。

http://www.confluent.io/blog/log-compaction-kafka-summit-edition-may-2016

福布斯介绍了美国运通在过去5年间采用大数据技术的历程。本文中，美国运通分享了一些技巧和学到的经验教训，例如采用新技术的困难（得到组织高层的认同是多么的重要），以及雇佣和留住工程师的挑战等等。

http://www.forbes.com/sites/ciocentral/2016/04/27/inside-american-express-big-data-journey/

产品发布

Cask发布了Cask Data Application Platform (CDAP)3.4版本。新版本增加了Cask Tracker，新的数据集成/审计/搜索系统，升级了Cask Hydrator的UI，增强了对Spark的支持等等。

http://blog.cask.co/2016/05/announcing-cdap-release-3-4-introducing-tracker-next-gen-hydrator-enhanced-spark-support-and-much-more/

Cloudera开源了“dist_tes”，并行执行单元测试的新工具。通过该工具，对Hadoop和Kudu项目进行单元测试，可以在数分钟而不是数小时内完成。该工具绑定了C++和Java，并在网站上演示了这些特性。

http://blog.cloudera.com/blog/2016/05/quality-assurance-at-cloudera-distributed-unit-testing/

Google宣布Google BigQuery和Drive可集成在一起，把输出保存到Google sheets。

http://techcrunch.com/2016/05/06/google-connects-bigquery-to-google-drive-and-sheets/

活动

中国

无

posted on 2016-05-15 20:30 Rosen 阅读(883) 评论(1) 编辑收藏

# re: Hadoop周刊—第 169 期 2016-06-05 20:42 救救刘书记

哟，又开始更新了回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理

成都心情

公告

留言簿(15)

随笔分类(91)

随笔档案(99)

文章分类(2)

友情链接

积分与排名

最新评论

阅读排行榜

评论排行榜

评论