首页 > 其他 > 详细

ETL的数据来源,处理,保存

时间:2017-08-22 22:21:44      阅读:206      评论:0      收藏:0      [点我收藏+]

1.ETL

  数据来源:HDFS

  处理方式:Mapreduce

  数据保存:HBase

   技术分享

 

2.为什么保存在Hbase中

  数据字段格式不唯一/不相同/不固定,采用hbase的动态列的功能非常适合
  因为我们的分析一般情况下,是对于部分事件数据进行分析的,不需要所有的数据,希望将数据的初步过滤放到服务器上进行操作,所以采用hbase的regionserver来过滤初步的条件(scan的filter机制)
  技术分享

  技术分享

 

3.数据处理  

  MapReduce
    数据流: hbase -> mapreduce -> mysql
  Hive
    数据流:hbase -> hive -> hdfs -> sqoop -> mysql

 

4.来源HDFS

  这些数据是在flume中收集来的数据,这些数据在前面已经被上传到HDFS。

  技术分享

ETL的数据来源,处理,保存

原文:http://www.cnblogs.com/RHadoop-Hive/p/7413883.html

(0)
(0)
   
举报
评论 一句话评论(0
分享档案
最新文章
教程昨日排行
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!