首页 > 其他 > 详细

hive学习总结(5)—分区、分桶和索引

时间:2014-11-23 02:03:45      阅读:435      评论:0      收藏:0      [点我收藏+]

1.分区

?

分区是以字段的形式在表结构中存在,通过describe table命令可以查看到字段存在,?但是该字段不存放实际的数据内容,仅仅是分区的表示(伪列)。

?

(1)静态分区

create table if not exists sopdm.wyp2(id int,name string,tel string)

partitioned by(age int)

row format delimited

fields terminated by ‘,‘

stored as textfile;

?

?--overwrite是覆盖,into是追加

insert?into?table sopdm.wyp2

partition(age=‘25‘)

select id,name,tel from sopdm.wyp;

?

(2)动态分区

--设置为true表示开启动态分区功能(默认为false)

set hive.exec.dynamic.partition=true;

--设置为nonstrict,表示允许所有分区都是动态的(默认为strict)

set hive.exec.dynamic.partition.mode=nonstrict;

?

--insert overwrite是覆盖,insert into是追加

set hive.exec.dynamic.partition.mode=nonstrict;

insert?overwrite?table sopdm.wyp2

partition(age)

select id,name,tel,age?from sopdm.wyp;

?

2. 分桶?

?

CREATE TABLE bucketed_user (id INT) name STRING)

CLUSTERED BY (id) INTO 4 BUCKETS;

?

对于每一个表(table)或者分区,?Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是?针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

把表(或者分区)组织成桶(Bucket)有两个理由:

(1)获得更高的查询处理效率。桶为表加上了额外的结构,Hive?在处理有些查询时能利用这个结构。具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用?Map?端连接?(Map-side join)高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量。

(2)使取样(sampling)更高效。在处理大规模数据集时,在开发和修改查询的阶段,如果能在数据集的一小部分数据上试运行查询,会带来很多方便。

?

3.索引

?

索引可以加快含有group by语句的查询的计算速度

?

create index?employees_index?on table?employees(country)

as??‘org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler‘

with deferred rebuild

in table?employees_index_table ;

?

hive学习总结(5)—分区、分桶和索引

原文:http://gaoxianwei.iteye.com/blog/2159331

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!