Change Dir

先知cd——热爱生活是一切艺术的开始

统计

随笔 - 222
文章 - 0
评论 - 182
引用 - 0

留言簿(18)

积分与排名

积分 - 423654
排名 - 132

“牛”们的博客

各个公司技术

我的链接

淘宝技术

阅读排行榜

评论排行榜

Hive配置项的含义详解（1）

一个hive任务，如何才算是优化的任务，hadoop job config里哪些配置能影响hive的效率。看看hive的详细配置我们可以略知一二。

hive的配置：

hive.ddl.output.format：hive的ddl语句的输出格式，默认是text，纯文本，还有json格式，这个是0.90以后才出的新配置；

hive.exec.script.wrapper：hive调用脚本时的包装器，默认是null，如果设置为python的话，那么在做脚本调用操作时语句会变为python <script command>，null的话就是直接执行<script command>；

hive.exec.plan：hive执行计划的文件路径，默认是null，会在运行时自动设置，形如hdfs://xxxx/xxx/xx；

hive.exec.scratchdir：hive用来存储不同阶段的map/reduce的执行计划的目录，同时也存储中间输出结果，默认是/tmp/<user.name>/hive，我们实际一般会按组区分，然后组内自建一个tmp目录存储；

hive.exec.submitviachild：在非local模式下，决定hive是否要在独立的jvm中执行map/reduce；默认是false，也就是说默认map/reduce的作业是在hive的jvm上去提交的；

hive.exec.script.maxerrsize：当用户调用transform或者map或者reduce执行脚本时，最大的序列化错误数，默认100000，一般也不用修改；

hive.exec.compress.output：一个查询的最后一个map/reduce任务输出是否被压缩的标志，默认为false，但是一般会开启为true，好处的话，根据这篇文章，节省空间不说，在不考虑cpu压力的时候会提高io；

hive.exec.compress.intermediate：类似上个，在一个查询的中间的map/reduce任务输出是否要被压缩，默认false，但一般也会手动开启，这篇文章对比了这两个配置，其中回复讲到，The former affects compression between MapReduce stages in a Hive query. The latter affects compression between map and reduce phases during the shuffle. 如此而已；

hive.jar.path：当使用独立的jvm提交作业时，hive_cli.jar所在的位置，无默认值；

hive.aux.jars.path：当用户自定义了UDF或者SerDe，这些插件的jar都要放到这个目录下，无默认值；

hive.partition.pruning：在编译器发现一个query语句中使用分区表然而未提供任何分区谓词做查询时，抛出一个错误从而保护分区表，默认是nonstrict；（待读源码后细化，网上资料极少）

hive.map.aggr：map端聚合是否开启，默认开启；这篇文章给出了map端聚合的很详细的描述；

hive.join.emit.interval：在发出join结果之前对join最右操作缓存多少行的设定，默认1000；hive jira里有个对该值设置太小的bugfix；

hive.map.aggr.hash.percentmemory：map端聚合时hash表所占用的内存比例，默认0.5，这个在map端聚合开启后使用，参看hive.map.aggr里提到的文章；

hive.default.fileformat：CREATE TABLE语句的默认文件格式，默认TextFile，其他可选的有SequenceFile、RCFile还有Orc；对于文件格式的说明对比，这里有篇对比可以参考，infoq上有篇文章讲了hadoop的文件格式；

hive.merge.mapfiles：在只有map的作业结束时合并小文件，默认开启true；

hive.merge.mapredfiles：在一个map/reduce作业结束后合并小文件，默认不开启false；

hive.merge.size.per.task：作业结束时合并文件的大小，默认256MB；

hive.merge.smallfiles.avgsize：在作业输出文件小于该值时，起一个额外的map/reduce作业将小文件合并为大文件，小文件的基本阈值，设置大点可以减少小文件个数，需要mapfiles和mapredfiles为true，默认值是16MB；

posted on 2013-08-13 15:24 changedi 阅读(3936) 评论(0) 编辑收藏所属分类: 数据

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: Leetcode-Database-181~183-3个easy题目连发 Leetcode-Database-180-Consecutive Numbers-Medium Leetcode-Database-178-Rank Scores-Medium Leetcode-Database-177-Nth Highest Salary-Medium Leetcode-Database-176-Second Highest Salary-Easy Leetcode-Database-175-Combine Two Tables-Easy 初探IMEI【译】 Hbase配置项粗解（3） Hbase配置项粗解（2） Hbase配置项粗解（1）