案例简介
  网站用户行为分析本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法。
 案例目的
- 熟悉Linux系统、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用;
 
- 了解大数据处理的基本流程;
 
- 熟悉数据预处理方法;
 
- 熟悉在不同类型数据库之间进行数据相互导入导出;
 
- 熟悉使用R语言进行可视化分析;
 
- 熟悉使用Elipse编写Java程序操作HBase数据库。
 
硬件要求
  本案例可以在单机上完成,也可以在集群环境下完成。
  单机上完成本案例实验时,建议计算机硬件配置为:500GB以上硬盘,8GB以上内存。
 软件工具 
  本案例所涉及的系统及软件
- Linux系统
 
- MySQL
 
- Hadoop
 
- HBase
 
- Hive
 
- Sqoop
 
- R
 
- Eclipse
 

 
 
 

 
 
 
数据集
  网站用户购物行为数据集2000万条记录。
案例任务
- 安装Linux操作系统
 
- 安装关系型数据库MySQL
 
- 安装大数据处理框架Hadoop
 
- 安装列族数据库HBase
 
- 安装数据仓库Hive
 
- 安装Sqoop
 
- 安装R
 
- 安装Eclipse
 
- 对文本文件形式的原始数据集进行预处理
 
- 把文本文件的数据集导入到数据仓库Hive中
 
- 对数据仓库Hive中的数据进行查询分析
 
- 使用Sqoop将数据从Hive导入MySQL
 
- 使用Sqoop将数据从MySQL导入HBase
 
- 使用HBase Java API把数据从本地导入到HBase中
 
- 使用R对MySQL中的数据进行可视化分析
 
 
网站用户行为分析——案例简介
原文:https://www.cnblogs.com/baojianxin/p/9268838.html