成都心情

  BlogJava :: 首页 ::  :: 联系 :: 聚合  :: 管理 ::
  98 随笔 :: 2 文章 :: 501 评论 :: 1 Trackbacks

Hadoop周刊 167



启明星辰平台和大数据整体组编译



2016
425

 

欢迎来到Hadoop周刊周一特别版。本周有大量来自SparkKafkaBeamKudu的技术新闻。如果你正在寻找一些更前沿的技术,Apache Metron(孵化中)发布了它们第一个版本。Metron,是一个构建在Hadoop上正在不断发展的通用安全系统。

 

技术新闻

本文介绍了如何在AWS上构建流式处理系统。包括了诸如Amazon Kinesis AWS LambdaKineses S3 connector之类简单的搭配方案,也介绍了AWS实现实时分析场景这样相对复杂点的方案。

http://cdn.oreillystatic.com/en/assets/1/event/144/Building%20a%20scalable%20architecture%20for%20processing%20streaming%20data%20on%20AWS%20Presentation.pdf

 

本文介绍了怎样使用Spark Testing BaseSpark Testing Base是一个用Scala编写,通过Java调用的Spark测试框架。本文的样例代码展示了如何隔离测试逻辑重构Spark代码,同时还通过Java处理了一些臃肿的Scala API

http://www.jesse-anderson.com/2016/04/unit-testing-spark-with-java/

 

Altiscale博客概述了在Spark环境下,构建thinuber jar包的优劣。示范了在MavenSBT分别构建两种包的情况。

https://www.altiscale.com/blog/spark-on-hadoop-thin-jars/

 

LinkedIn介绍了他们的Kafka生态系统,生态系统包含一个特殊的Kafka producer,一个为非Java客户端提供的REST API,一个avro模式注册表,以及Gobblin(装载数据到Hadoop的工具)等等。

https://engineering.linkedin.com/blog/2016/04/kafka-ecosystem-at-linkedin

 

Spark Streaming教程介绍了怎样通过twitter4j API拉推文,基于标签过滤,对推文进行情感分析。

https://www.mapr.com/blog/spark-streaming-and-twitter-sentiment-analysis

 

Apache Kudu(孵化中)是Apache Impala(孵化中)的绝佳伴侣,因为它能高效地解决广泛的分析和有针对性的查询。本文描述了两者集成的技术细节,例如Kudu的设计如何保证高效地查询能力,如何通过ImpalaKudu执行写/更新/删除操作等等。

http://blog.cloudera.com/blog/2016/04/how-to-use-impala-and-kudu-together-for-analytic-workloads/

 

MapR撰文介绍了使用spark-sklearn扩展一个已存在的scikit-learn模型。文章介绍了如何透过Airbnb数据集内部建模,还介绍了如何傍着spark-sklearn进行交叉验证。

https://www.mapr.com/blog/predicting-airbnb-listing-prices-scikit-learn-and-apache-spark

 

AWS大数据博客写了个如何在Amazon EMR中使用HBaseHive的教程。本教程介绍了HBase,描述了如何在S3中恢复HBase表,示范了HiveHBase如何集成等等。

http://blogs.aws.amazon.com/bigdata/post/Tx3EGE8Z90LZ9WX/Combine-NoSQL-and-Massively-Parallel-Analytics-Using-Apache-HBase-and-Apache-Hiv

 

本文描述了为学生在大数据课程上提供实战经验的挑战。作者经历若干次的迭代和选择似乎有了一个好方案 AltiscaleHadoop-as-a-Service

https://www.altiscale.com/blog/hadoop-as-a-service-in-the-classroom/

 

Cloudera博客的一篇客做文章,作者比较了ParquetAvro在跨两个数据集的不同处理方式(一个数据集窄(3)、一个数据集宽(103))。在用SparkSpark SQL测试查询/操作后,作者发现ParquetAvro在查询序列化数据方面有时表现很类似,尽管在大多数情况下查询Parquet数据的时候更快点(序列化数据更小)。

http://blog.cloudera.com/blog/2016/04/benchmarking-apache-parquet-the-allstate-experience/

 

本文介绍了如何在CDH这样的分布式环境中使用SparkR,尽管SparkR官方还没有支持这种方式。借助YARNworker本地安装R语言包,job稍加改造就能执行了。

http://www.nodalpoint.com/sparkr-in-cloudera-hadoop/

 

很多开源框架都能执行MapReduce以及借助更高级的编程模型完成类似的工作。纵观过去,它们依赖独立运行的框架(例如MapReduce, Storm),但是最近的某些变化使得这一切充满了变数。Apache Beam(孵化中)更进一步地跨越了批处理、流式处理两种执行模式,内置更加复杂的计算模型。

http://www.datanami.com/2016/04/22/apache-beam-emerges-ambitious-goal-unify-big-data-development/

 

Apache博客发布了HBaseHDDSSD以及RAMDISK上的写入性能测试比对的7篇系列文章。通过这一分析,作者发现并提议在HBaseHDFS上实现一些未覆盖的功能。

https://blogs.apache.org/hbase/entry/hdfs_hsm_and_hbase_part

 

其他新闻

Tom White“Hadoop权威指南的作者撰文介绍他是如何步入Apache Hadoop殿堂的。他的早期贡献是绕着HadoopAmazon Web Services集成展开,而今AWS已成为Hadoop项目成功的重要部分。

http://vision.cloudera.com/how-i-got-into-hadoop/

 

Fluo,为Apache Accumulo准备的分布式处理引擎,向Apache孵化器提交了孵化申请。

https://wiki.apache.org/incubator/FluoProposal

 

Apache Phoenix宣布将在HBaseCon后举行会议,Apache Phoenix是一个SQL-on-HBase系统。该会议只有半天,主题是介绍Phoenix内部情况和用例。

http://hortonworks.com/blog/announcing-first-annual-phoenixcon-apache-phoenix-user-conference/

 

产品发布

Apache Metron,构建于Hadoop上的安全框架,发布了0.1版。Hortonworks支撑其作为技术预览版,并撰写本文介绍了如何上手,如何贡献,如何使用Metron UI等等。

http://hortonworks.com/blog/apache-metron-tech-preview-1-come-get/

http://hortonworks.com/blog/apache-metron-use-case-finding-needle-haystack/

 

Apache NiFi本周发布了0.6.1版。这是修复了10多个bug后的修复版。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCALJK9a7yLnFeJ7Z=eU6mOB-DXvo8MHUr=_RshSjZcTbTcAHDZA@mail.gmail.com%3E

 

Apache Flink本周发布了1.0.2版。本次发布包括了bug修复,RocksDB环境下的性能提升以及一些文档方面的进步。

http://flink.apache.org/news/2016/04/22/release-1.0.2.html

 

Amazon发布了新版Amazon EMR,开始支持HBase 1.2

https://aws.amazon.com/blogs/aws/amazon-emr-update-apache-hbase-1-2-is-now-available/

 

活动

中国

posted on 2016-05-03 10:08 Rosen 阅读(630) 评论(0)  编辑  收藏 所属分类: 大数据

只有注册用户登录后才能发表评论。


网站导航: