Pig是专门用于处理来自于HDFS的数据的。
Pig提供了一套流式的数据处理语言,转换为MapReduce,来处理HDFS中的数据。
*HBase是用来存储和查询数据
直接解压缩,执行bin/pig,就进入到grunt命令行
a = load ‘/user.data‘; #默认加载的是用制表符分隔的数据 # 访问列的时候,用$加上索引访问 dump a; b=load ‘/user.data2‘ using PigStorage(‘;‘); #加载文件时指定分隔符 dump b; c = load ‘/user.data‘ using HBaseStorage; #可以加载HBase中的数据 dump c; d = load ‘/user.data‘ as (id,name); #指定字段名 dump d; e = load ‘/user.data‘ as (id:int,name:bytearray); #指定字段名和类型 dump e;
store d into ‘/user.data3‘; fs -text ‘user.data3‘;
f = foreach e generate id,name; dump f; g = foreach a generate $0; dump g; #或者 g = foreach a generate $0 as id; dump g;
h = filter f by id<2;
dump h;
group h by uid;
i = order h by uid desc;
distinct h;
l = limit h 50;
sample h 0.1; #抽取整体的10%的样本
join user by id, role by uid;
继承自FilterFunc
原文:http://www.cnblogs.com/hpuCode/p/5220510.html