工具数据数据仓库模型系统

hive数据仓库包含哪些数据类型 hive是什么意思？

[更新]

日期：2023-05-14 14:25:25

分类：互联网

2533 阅读

hive数据仓库包含哪些数据类型

hive是什么意思？

hive是什么意思？

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。
其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hadoop生态系统及各模块的功能？

1. HDFS(Hadoop 分布式文件系统)
HDFS 是 Hadoop 生态圈中提供分布式存储支持的系统，上层的很多计算框架(Hbase、Spark 等)都依赖于 HDFS 存储。
2. MapReduce(分布式计算模型)离线计算
何为离线计算，其实就是非实时计算。
3. Yarn(分布式资源管理器)
Yarn 的出现主要就是为了解决原始 Hadoop 扩展性较差、不支持多种计算模型的问题。
4. Spark(内存计算)
Spark 提供了内存中的分布式计算能力，相比传统的 MapReduce 大数据分析效率更高、运行速度更快。
5. HBase(分布式列存储数据库)
Hbase继承了列存储的特性，它非常适合需对数据进行随机读、写操作。其次，Hbase构建在HDFS之上，其内部管理的文件全部存储在HDFS中。这使它具有高度容错性和可扩展性，并支持Hadoop mapreduce程序设计模型。
6. Hive(数据仓库)
7. Oozie(工作流调度器)
Oozie 是一个基于工作流引擎的调度器，它其实就是一个运行在 Java Servlet 容器(如 Tomcat)中的 Javas Web 应用，你可以在它上面运行 Hadoop 的 Map Reduce 和 Pig 等任务，。
8. Sqoop 与 Pig
9. Flume(日志收集工具)
Flume 是将数据从产生、传输、处理并最终写入目标路径的过程抽象为数据流，在具体的数据流中，数据源支持在 Flume 中定制数据发送方，从而支持收集各种不同协议数据。
10. Kafka(分布式消息队列)
Kafka 是 Apache 组织下的一个开源系统，它的最大特性就是可以实时的处理大量数据以满足各种需求场景：比如基于 Hadoop 平台的数据分析、低时延的实时系统、Storm/Spark 流式处理引擎等。Kafka 现在它已被多家大型公司作为多种类型的数据管道和消息系统使用。
11. ZooKeeper(分布式协作服务)
通俗的讲，ZooKeeper 相当于一个和事佬的角色，如果两人之间发生了一些矛盾或者冲突，无法自行解决的话，这个时候就需要 ZooKeeper 这个和事佬从中进行调解，而和事佬调解的方式是站在第三方客观的角度，根据一些规则(如道德规则、法律规则)，客观的对冲突双方做出合理、合规的判决。
12. Ambari(大数据运维工具)
Ambari 是一个大数据基础运维平台，它实现了 Hadoop 生态圈各种组件的自动化部署、服务管理和监控告警，Ambari 通过 puppet 实现自动化安装和配置，通过 Ganglia 收集监控度量指标，用 Nagios 实现故障报警。