Hive入门

时间：2020-07-13 11:59:49 阅读：48 评论：0 收藏：0 [点我收藏+]

Hive是个啥？

用类似sql语句实现对分布式存储系统的数据读写、管理功能。

HIVE特点

1.使用类sql语句分析大数据，避免MapReduce程序分析数据

2.数据存储在HDFS上，不是HIVE上

3.Hive将数据映射成数据库和一张张表，库和表的元数据信息一般存在关系型数据库。

元数据：描述数据的数据

举例：

比如一本书，书的书名、isbn号、作者、出版社、目录等信息就是一本书的元数据。

元数据的分类：

描述性元数据：描述对象的基本信息。

结构性元数据：描述对象的内部结构和关系。

管理性元数据：记录有助于管理对象的信息。

参考性元数据：描述了统计数据的内容和质量。

统计性元数据：描述收集，处理或产生统计数据过程

构造元数据：

使用“词汇表”构造语句。词汇表根据明确的行业标准构造。

元数据语法：

一般建议的方法

1.主语-谓词-对象

2.类-属性-值

hive的底层存储：

hive的数据是存储在HDFS上，hive中的库和表可以看作是对HDFS上数据的一个映射。所以hive必须运行在一个hadoop集群。

hive语句背后的执行过程：

hive中的执行器，将最终要要执行的MapReduce程序放到YARN上以一系列job进行执行。

YARN是啥？

hadoop的一个资源管理系统。

原文：https://www.cnblogs.com/liuguangshou123/p/13291893.html

踩

(0)

评论一句话评论（0）

分享档案

更多>