HBase & Hive

1. Hive 中的表是纯逻辑表，就只是表的定义等，即表的元数据。Hive 本身不存储数据，它完全依赖 HDFS 和 MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表，并提供完整的 SQL 查询功能，并将 SQL 语句最终转换为 MapReduce 任务进行运行。而 HBase 表是物理表，适合存放非结构化的数据。
2. Hive 是基于 MapReduce 来处理数据,而 MapReduce 处理数据是基于行的模式；HBase 处理数据是基于列的而不是基于行的模式，适合海量数据的随机访问。
3. HBase 的表是疏松的存储的，因此用户可以给行定义各种不同的列；而 Hive 表是稠密型，即定义多少列，每一行有存储固定列数的数据。
4. Hive 使用 Hadoop 来分析处理数据，而 Hadoop 系统是批处理系统，因此不能保证处理的低迟延问题；而 HBase 是近实时系统，支持实时查询。
5. Hive 不提供 row-level 的更新，它适用于大量 append-only 数据集（如日志）的批任务处理。而基于 HBase 的查询，支持和 row-level 的更新。
6. Hive 提供完整的 SQL 实现，通常被用来做一些基于历史数据的挖掘、分析。而 HBase 不适用与有 join，多级索引，表关系复杂的应用场景。

先放结论：Hbase 和 Hive 在大数据架构中处在不同位置，Hbase 主要解决实时数据查询问题，Hive 主要解决数据处理和计算问题，一般是配合使用。
一、区别：

Hbase： Hadoop database 的简称，也就是基于 Hadoop 数据库，是一种 NoSQL 数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等。
Hive：Hive 是 Hadoop 数据仓库，严格来说，不是数据库，主要是让开发人员能够通过 SQL 来计算和处理 HDFS 上的结构化数据，适用于离线的批量数据计算。

通过元数据来描述 Hdfs 上的结构化文本数据，通俗点来说，就是定义一张表来描述 HDFS 上的结构化文本，包括各列数据名称，数据类型是什么等，方便我们处理数据，当前很多 SQL ON Hadoop 的计算引擎均用的是 hive 的元数据，如 Spark SQL、Impala 等；
基于第一点，通过 SQL 来处理和计算 HDFS 的数据，Hive 会将 SQL 翻译为 Mapreduce 来处理数据；

二、关系
在大数据架构中，Hive 和 HBase 是协作关系，数据流一般如下图：

通过 ETL 工具将数据源抽取到 HDFS 存储；
通过 Hive 清洗、处理和计算原始数据；
HIve 清洗处理后的结果，如果是面向海量数据随机查询场景的可存入 Hbase
数据应用从 HBase 查询数据；

uploading...

是的，根据 google 论文来的，类似的系统还有 Cassandra。Google 当年设计 bigtable 的原因在于公司内部各业务线需求差异太大，无论从查询性能还是存储 schema 等，导致没有办法搞一个大招解决所有部门的需求。后来还是很吊的 Jeffrey 一票人设计出来的 bigtable。早期 google 的 web 页面就存在 bigtable 里。HBase 根据论文，社区的一帮人搞出来的。现在主要的 contributor 应该是 Cloudera 和 Hortonworks 的人。HBase 本质上是一个 database，可以认为它是一个很大的 hashmap。你可以看到 HBase 很多核心的机制在于它的 compaction 和 split，以及 WAL，ragion 管理等。而它可以秒级返回，得益其 hash 的设计、bloom filter、memory cache 等，但这绝对不是它设计的初衷，只能说是一个考虑点或者优化。另外，本质上讲，把 Hive 和 HBase 放到一起对比是毫无理由的，这两个系统根本就是完全不同的东西，设计目的、架构、生态中的位置都是完全不同的。希望这个回答令你满意。：）

非常感谢详细的回复。我是这么理解的，hbase 的目标是解决海量数据的随机查询，key-value、compaction、split、wal、region、memory cache 等是围绕这个目标而采用的技术手段。另外，hive 和 hbase 是完全不同的东西我是认同的，在文中也由相关的表述。谢谢，一起讨论！

其实真正为解决 adhoc 查询的系统是你提到的 impala（虽然它现在半死不死）。database 的核心是存储，访问只是附属品。Anyway，你怎么认为这个系统，你开心就好，我有时候会比较钻牛角尖，勿怪。

没事，探讨而已，不同思想碰撞一下。impala 适合 olap 多维分析的 adhoc 场景，但高并发能力不行，hbase 适合单表的清单数据高并发基于某个 key 的查询，当然现在 kylin 的 OLAP 分析底层也是基于 hbase 来做。

【bigdata】4.hive 安装

hive的全部安装过程都是在master节点安装 hive 1.上传并解压 tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /hive安装目录 2.配置环境 2.1 配置 hive-env.sh # 跳转到hive配置文件目录 cd /hive安装目录/conf # 修改名称 mv ..

【bigdata】1.hadoop 集群搭建

安装虚拟机打开 VMware-》文件-》新建虚拟机：默认典型，下一步 [图片] 选择镜像文件位置，下一步 [图片] 设置用户名密码，下一步（注意，有些镜像是在安装过程中设置，我用的镜像是：CentOS-7-x86_64-DVD-1804.iso，18 年版本的都能先设置用户名密码，后面全程自动安装） [图片] 设置 ..

流批一体在京东的探索与实践

01 整体思考 [图片] 提到流批一体，不得不提传统的大数据平台 —— Lambda 架构。它能够有效地支撑离线和实时的数据开发需求，但它流和批两条数据链路割裂所导致的高开发维护成本以及数据口径不一致是无法忽视的缺陷。通过一套数据链路来同时满足流和批的数据处理需求是最理想的情况，即流批一体。此外我们认为流批一体还存在 ..

Flink 流数据 api 实战之实现机器学习密度峰值聚类算法

[图片] 案例背景此案例的数据源为通过 GPS 定位产生的经纬度信息返回到服务器，然后通过调用特定的定位接口来变成一片特定区域的平面图的 x 和 y 坐标。同一个人收集到的坐标集加上特定的 id 作为标签。此案例的数据源的类型为实时流式数据，其中最大的特点就是有头无尾，只要开启收集程序，就会收集到源源不断的流式数据 ..

史上最全! 保姆级 Hadoop 安装教学

[图片] 学大数据,不管怎么样始终都绕不开 Hadoop 这个黄色的小象 [图片] 而安装 Hadoop 可以说是进入大数据领域的第一步了,作为学校里大数据专业还在坚持学大数据的同学,经过这几年的学习还是积累了些许经验的,来一波保姆级 Hadoop 安装教学. 首先默认你有些许 Linux 的基础,并且电脑上已经安装好 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

相关帖子

【bigdata】4.hive 安装

【bigdata】3.idea 连接虚拟机 Hadoop 集群

【bigdata】2.Hadoop 集群模式安装

【bigdata】1.hadoop 集群搭建

流批一体在京东的探索与实践

Flink 流数据 api 实战之实现机器学习密度峰值聚类算法

史上最全! 保姆级 Hadoop 安装教学

欢迎来到这里！

近期热议

推荐标签标签

最新标签

HBase & Hive

相关帖子

【bigdata】4.hive 安装

【bigdata】3.idea 连接虚拟机 Hadoop 集群

【bigdata】2.Hadoop 集群模式安装

【bigdata】1.hadoop 集群搭建

流批一体在京东的探索与实践

Flink 流数据 api 实战之实现机器学习密度峰值聚类算法

史上最全! 保姆级 Hadoop 安装教学

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签