Hive配置项的含义详解（3）

hive.exec.script.maxerrsize：一个map/reduce任务允许打印到标准错误里的最大字节数，为了防止脚本把分区日志填满，默认是100000；

hive.exec.script.allow.partial.consumption：hive是否允许脚本不从标准输入中读取任何内容就成功退出，默认关闭false；

hive.script.operator.id.env.var：在用户使用transform函数做自定义map/reduce时，存储唯一的脚本标识的环境变量的名字，默认HIVE_SCRIPT_OPERATOR_ID；

hive.exec.compress.output：控制hive的查询结果输出是否进行压缩，压缩方式在hadoop的mapred.output.compress中配置，默认不压缩false；

hive.exec.compress.intermediate：控制hive的查询中间结果是否进行压缩，同上条配置，默认不压缩false；

hive.exec.parallel：hive的执行job是否并行执行，默认不开启false，在很多操作如join时，子查询之间并无关联可独立运行，这种情况下开启并行运算可以大大加速；

hvie.exec.parallel.thread.number：并行运算开启时，允许多少作业同时计算，默认是8；

hive.exec.rowoffset：是否提供行偏移量的虚拟列，默认是false不提供，Hive有两个虚拟列:一个是INPUT__FILE__NAME,表示输入文件的路径，另外一个是BLOCK__OFFSET__INSIDE__FILE，表示记录在文件中的块偏移量，这对排查出现不符合预期或者null结果的查询是很有帮助的（来自这篇文章）；

hive.task.progress：控制hive是否在执行过程中周期性的更新任务进度计数器，开启这个配置可以帮助job tracker更好的监控任务的执行情况，但是会带来一定的性能损耗，当动态分区标志hive.exec.dynamic.partition开启时，本配置自动开启；

hive.exec.pre.hooks：执行前置条件，一个用逗号分隔开的实现了org.apache.hadoop.hive.ql.hooks.ExecuteWithHookContext接口的java class列表，配置了该配置后，每个hive任务执行前都要执行这个执行前钩子，默认是空；

hive.exec.post.hooks：同上，执行后钩子，默认是空；

hive.exec.failure.hooks：同上，异常时钩子，在程序发生异常时执行，默认是空；

hive.mergejob.maponly：试图生成一个只有map的任务去做merge，前提是支持CombineHiveInputFormat，默认开启true；

hive.mapjoin.smalltable.filesize：输入表文件的mapjoin阈值，如果输入文件的大小小于该值，则试图将普通join转化为mapjoin，默认25MB；

hive.mapjoin.localtask.max.memory.usage：mapjoin本地任务执行时hash表容纳key/value的最大量，超过这个值的话本地任务会自动退出，默认是0.9；

hive.mapjoin.followby.gby.localtask.max.memory.usage：类似上面，只不过是如果mapjoin后有一个group by的话，该配置控制类似这样的query的本地内存容量上限，默认是0.55；

hive.mapjoin.check.memory.rows：在运算了多少行后执行内存使用量检查，默认100000；

hive.heartbeat.interval：发送心跳的时间间隔，在mapjoin和filter操作中使用，默认1000；

hive.auto.convert.join：根据输入文件的大小决定是否将普通join转换为mapjoin的一种优化，默认不开启false；

hive.script.auto.progress：hive的transform/map/reduce脚本执行时是否自动的将进度信息发送给TaskTracker来避免任务没有响应被误杀，本来是当脚本输出到标准错误时，发送进度信息，但是开启该项后，输出到标准错误也不会导致信息发送，因此有可能会造成脚本有死循环产生，但是TaskTracker却没有检查到从而一直循环下去；

hive.script.serde：用户脚本转换输入到输出时的SerDe约束，默认是org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe；

hive.script.recordreader：从脚本读数据的时候的默认reader，默认是org.apache.hadoop.hive.ql.exec.TextRecordReader；

hive.script.recordwriter：写数据到脚本时的默认writer，默认org.apache.hadoop.hive.ql.exec.TextRecordWriter；

hive.input.format：输入格式，默认是org.apache.hadoop.hive.ql.io.CombineHiveInputFormat，如果出现问题，可以改用org.apache.hadoop.hive.ql.io.HiveInputFormat；

hive.udtf.auto.progress：UDTF执行时hive是否发送进度信息到TaskTracker，默认是false；

hive.mapred.reduce.tasks.speculative.execution：reduce任务推测执行是否开启，默认是true；

hive.exec.counters.pull.interval：运行中job轮询JobTracker的时间间隔，设置小会影响JobTracker的load，设置大可能看不出运行任务的信息，要去平衡，默认是1000；

hive.enforce.bucketing：数据分桶是否被强制执行，默认false，如果开启，则写入table数据时会启动分桶，个人对分桶的理解可以参考这篇文章，写的较清楚，有示例，分桶在做全表查询和带有分区字段查询时感觉影响不大，主要作用在sampling；

hive.enforce.sorting：开启强制排序时，插数据到表中会进行强制排序，默认false；

hive.optimize.reducededuplication：如果数据已经根据相同的key做好聚合，那么去除掉多余的map/reduce作业，此配置是文档的推荐配置，建议打开，默认是true；

hive.exec.dynamic.partition：在DML/DDL中是否支持动态分区，默认false；

hive.exec.dynamic.partition.mode：默认strict，在strict模式下，动态分区的使用必须在一个静态分区确认的情况下，其他分区可以是动态；

hive.exec.max.dynamic.partitions：动态分区的上限，默认1000；

hive.exec.max.dynamic.partitions.pernode：每个mapper/reducer节点可以创建的最大动态分区数，默认100；

hive.exec.max.created.files：一个mapreduce作业能创建的HDFS文件最大数，默认是100000；

hive.exec.default.partition.name：当动态分区启用时，如果数据列里包含null或者空字符串的话，数据会被插入到这个分区，默认名字是__HIVE_DEFAULT_PARTITION__；

hive.fetch.output.serde：FetchTask序列化fetch输出时需要的SerDe，默认是org.apache.hadoop.hive.serde2.DelimitedJSONSerDe;

hive.exec.mode.local.auto：是否由hive决定自动在local模式下运行，默认是false，关于满足什么条件开启localmode，可以参考这篇文章；

posted on 2013-09-10 13:45 changedi 阅读(4015) 评论(1) 编辑收藏所属分类: 数据

# re: Hive配置项的含义详解（3） 2013-09-10 16:22 tb

解释比较详细的啊回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: Leetcode-Database-181~183-3个easy题目连发 Leetcode-Database-180-Consecutive Numbers-Medium Leetcode-Database-178-Rank Scores-Medium Leetcode-Database-177-Nth Highest Salary-Medium Leetcode-Database-176-Second Highest Salary-Easy Leetcode-Database-175-Combine Two Tables-Easy 初探IMEI【译】 Hbase配置项粗解（3） Hbase配置项粗解（2） Hbase配置项粗解（1）

# re: Hive配置项的含义详解（3） 2013-09-10 16:22 tb

Change Dir

导航

公告

随笔分类(125)

随笔档案(123)

统计

留言簿(18)

积分与排名

“牛”们的博客

各个公司技术

我的链接

淘宝技术

阅读排行榜

评论排行榜

Hive配置项的含义详解（3）

评论