HBase & Hive

本贴最后更新于 2273 天前,其中的信息可能已经斗转星移

1. Hive 中的表是纯逻辑表,就只是表的定义等,即表的元数据。Hive 本身不存储数据,它完全依赖 HDFS 和 MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表,并提供完整的 SQL 查询功能,并将 SQL 语句最终转换为 MapReduce 任务进行运行。 而 HBase 表是物理表,适合存放非结构化的数据。
2. Hive 是基于 MapReduce 来处理数据,而 MapReduce 处理数据是基于行的模式;HBase 处理数据是基于列的而不是基于行的模式,适合海量数据的随机访问。
3. HBase 的表是疏松的存储的,因此用户可以给行定义各种不同的列;而 Hive 表是稠密型,即定义多少列,每一行有存储固定列数的数据。
4. Hive 使用 Hadoop 来分析处理数据,而 Hadoop 系统是批处理系统,因此不能保证处理的低迟延问题;而 HBase 是近实时系统,支持实时查询。
5. Hive 不提供 row-level 的更新,它适用于大量 append-only 数据集(如日志)的批任务处理。而基于 HBase 的查询,支持和 row-level 的更新。
6. Hive 提供完整的 SQL 实现,通常被用来做一些基于历史数据的挖掘、分析。而 HBase 不适用与有 join,多级索引,表关系复杂的应用场景。

先放结论:Hbase 和 Hive 在大数据架构中处在不同位置,Hbase 主要解决实时数据查询问题,Hive 主要解决数据处理和计算问题,一般是配合使用。
一、区别:

  1. Hbase: Hadoop database 的简称,也就是基于 Hadoop 数据库,是一种 NoSQL 数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。
  2. Hive:Hive 是 Hadoop 数据仓库,严格来说,不是数据库,主要是让开发人员能够通过 SQL 来计算和处理 HDFS 上的结构化数据,适用于离线的批量数据计算。
  • 通过元数据来描述 Hdfs 上的结构化文本数据,通俗点来说,就是定义一张表来描述 HDFS 上的结构化文本,包括各列数据名称,数据类型是什么等,方便我们处理数据,当前很多 SQL ON Hadoop 的计算引擎均用的是 hive 的元数据,如 Spark SQL、Impala 等;
  • 基于第一点,通过 SQL 来处理和计算 HDFS 的数据,Hive 会将 SQL 翻译为 Mapreduce 来处理数据;

二、关系
在大数据架构中,Hive 和 HBase 是协作关系,数据流一般如下图:

  1. 通过 ETL 工具将数据源抽取到 HDFS 存储;
  2. 通过 Hive 清洗、处理和计算原始数据;
  3. HIve 清洗处理后的结果,如果是面向海量数据随机查询场景的可存入 Hbase
  4. 数据应用从 HBase 查询数据;

uploading...

是的,根据 google 论文来的,类似的系统还有 Cassandra。Google 当年设计 bigtable 的原因在于公司内部各业务线需求差异太大,无论从查询性能还是存储 schema 等,导致没有办法搞一个大招解决所有部门的需求。后来还是很吊的 Jeffrey 一票人设计出来的 bigtable。早期 google 的 web 页面就存在 bigtable 里。HBase 根据论文,社区的一帮人搞出来的。现在主要的 contributor 应该是 Cloudera 和 Hortonworks 的人。HBase 本质上是一个 database,可以认为它是一个很大的 hashmap。你可以看到 HBase 很多核心的机制在于它的 compaction 和 split,以及 WAL,ragion 管理等。而它可以秒级返回,得益其 hash 的设计、bloom filter、memory cache 等,但这绝对不是它设计的初衷,只能说是一个考虑点或者优化。另外,本质上讲,把 Hive 和 HBase 放到一起对比是毫无理由的,这两个系统根本就是完全不同的东西,设计目的、架构、生态中的位置都是完全不同的。希望这个回答令你满意。:)

非常感谢详细的回复。我是这么理解的,hbase 的目标是解决海量数据的随机查询,key-value、compaction、split、wal、region、memory cache 等是围绕这个目标而采用的技术手段。另外,hive 和 hbase 是完全不同的东西我是认同的,在文中也由相关的表述。谢谢,一起讨论!

其实真正为解决 adhoc 查询的系统是你提到的 impala(虽然它现在半死不死)。database 的核心是存储,访问只是附属品。Anyway,你怎么认为这个系统,你开心就好,我有时候会比较钻牛角尖,勿怪。

没事,探讨而已,不同思想碰撞一下。impala 适合 olap 多维分析的 adhoc 场景,但高并发能力不行,hbase 适合单表的清单数据高并发基于某个 key 的查询,当然现在 kylin 的 OLAP 分析底层也是基于 hbase 来做。

  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖

相关帖子

回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • RabbitMQ

    RabbitMQ 是一个开源的 AMQP 实现,服务器端用 Erlang 语言编写,支持多种语言客户端,如:Python、Ruby、.NET、Java、C、PHP、ActionScript 等。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。

    49 引用 • 60 回帖 • 399 关注
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    164 引用 • 594 回帖 • 1 关注
  • uTools

    uTools 是一个极简、插件化、跨平台的现代桌面软件。通过自由选配丰富的插件,打造你得心应手的工具集合。

    5 引用 • 13 回帖
  • V2Ray
    1 引用 • 15 回帖 • 1 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖 • 2 关注
  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    238 引用 • 224 回帖 • 1 关注
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    330 引用 • 614 回帖
  • JVM

    JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。

    180 引用 • 120 回帖 • 2 关注
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖 • 2 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    247 引用 • 1347 回帖
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 609 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 38 关注
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 92 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 521 关注
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • 996
    13 引用 • 200 回帖
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 45 关注
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 405 关注
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    180 引用 • 447 回帖 • 1 关注
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 125 关注
  • 创业

    你比 99% 的人都优秀么?

    82 引用 • 1398 回帖
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 604 关注
  • Google

    Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于 1998 年 9 月 7 日以私有股份公司的形式创立,设计并管理一个互联网搜索引擎。Google 公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号。

    49 引用 • 192 回帖
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    129 引用 • 793 回帖 • 1 关注
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 685 关注