Hive 基础语句(建库,建表,导入数据)

本贴最后更新于 1710 天前,其中的信息可能已经沧海桑田

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/u012274449/article/details/88327067

可能会遇到权限不足的问题:

hadoop fs -chmod 777 /user

将一个文件加载到 HDFS

hadoop fs -mkdir /user/demo/states/

hadoop fs -put /tmp/states.txt /user/demo/states/

hadoop fs -ls /user/demo/states/

使用 hadoop fs 文件系统命令 将权限开启

最简单的建立数据库的方法:

CREATE DATABASE shopping;

它将在 hive.metastore.warehouse.dir 中定义的默认顶层目录下建立一个名为 shopping.db 的目录

完整语法如下:

CREATE(DATABASE|SCHEMA) [IF NOT EXISTS] database_name

[COMMENT database_comment]

[LOCATION hdfs_path]

[WITH DBPROPERTIES (PROPERTY_NAME = property_value,...)];

CREATE DATABASE if NOT EXISTS shopping

comment 'shores all shopping baseket data'

LOCATION '/user/hive/warehouse/SHOPPING.db'

WITH DBPROPERTIES('purpose'='testing');

修改数据库属性:

ALTER DATABASE shopping SET DBPROPERTIES('department'='SALES');

删除数据库:

DROP DATABASE shopping CASCADE; CASCADE 意味着级联删除,数据库和表一起删除.默认为 RESTRICT (限制)

创建一张表:

CREATE EXTERNAL TABLE shopping.customers(

fname STRING,

lname STRING,

address STRUCT<HOUSENO:STRING, STREET:STRING, CITY:STRING, ZIPCODE:INT,STATE:STRING,COUNTRY:STRING>,

active BOOLEAN,

created DATE)

COMMENT 'yizhangbiao';

CREATE EXTERNAL 表示创建一张 外部表; 删除外部表不会删除底层数据.

将一个文件加载到 HDFS

hadoop fs -mkdir /user/demo/states/

hadoop fs -put /tmp/states.txt /user/demo/states/

hadoop fs -ls /user/demo/states/

创建一个内部表访问 states 文件夹下的文件,也就是 states.txt,如果有多个文件,他会查出所有文件内容

CREATE TABLE states_internal (state string) LOCATION '/user/demo/states';

查看表定义:

DESCRIBE FORMATTED states_internal;

查询数据:

SELECT * FROM states_internal;

创建一个外部表:

CREATE EXTERNAL TABLE states_external (state string) LOCATION '/user/demo/states';

建立第二个外部表

CREATE EXTERNAL TABLE states_external2(state string) LOCATION '/user/demo/states';

删除外部表:

DRop TABLE states_external;

再次查询:

SELECT * FROM staties_external2;

说明删除外部表不影响底层数据.

删除内部表

DROP TABLE states_internal;

按照文档中所说,删除内部表会将底层数据也进行删除.

但是实际操作,数据也没有删除..这里存疑

创建不含标题的外部表:

CREATE EXTERNAL TABLE state3(state string) LOCATION '/user/demo/states' TBLPROPERTIES ("skip.header.line.count"="2");

生成已有表的 create table 命令:

show create table state3;

创建一个带分区列的表:

CREATE EXTERNAL TABLE transactions(

Transdate DATE,

transid INT,

custid INT,

fname STRING,

lname STRING,

item STRING,

qty INT,

price FLOAT

)

PARTITIONED BY(store STRING); //最后一句是分区列,这个列并不一定要在表结构中存在.

插入数据:

INSERT INTO transactions PARTITION(store="woshi") values("01/25/2016",101,"A109","1111","SMITH","SHOES",1,11);

查询日期

SELECT * FROM transactions WHERE transdate BETWEEN '2018-11-03'and '2019-12-12'

使用字符串日期 如'2019-01-01'作为分区,是高效的,并且适用于很多匹配符:

如 in like between

分桶:

分桶会按照指定列,均衡的分为多少桶,不会产生新的目录及列.

桶编号最好为质数

需要链接的表,桶数必须相同,或者一个桶数为另一个桶数的因子

CREATE EXTERNAL TABLE customers (store string) CLUSTERED BY (store) INTO 3 BUCKETS LOCATION '/user/demo/states';

.

创建临时表:

CREATE TEMPORARY TABLE states(state STRING);

改变表名:

Alter table states RENAME TO states_old;

alter table 命令只会修改表结构,但是不会修改表数据.

将表转换为 ORC 文件:

CREATE TABLE states_orc STORED as ORC TBLPROPERTIES ("ORC.COMPRESS"="SNAPPY") as

SELECT * from state3;

合并表的文件:

ALTER TABLE state CONCATENATE;

添加分区:

外部表

ALTER TABLE ids ADD PARTITION (datestam='2019-03-03') LOCATION '/user/demo/ids/2019-03-03';

内部表:

MSCK REPAIR TABLE ids_internal;

  • Hive
    22 引用 • 7 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
sq8852161
前端后端数据库,什么都要做的JAVA码农。( Ĭ ^ Ĭ )

推荐标签 标签

  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    207 引用 • 2031 回帖
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖 • 2 关注
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 247 关注
  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    333 引用 • 323 回帖 • 66 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 417 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖 • 3 关注
  • 新人

    让我们欢迎这对新人。哦,不好意思说错了,让我们欢迎这位新人!
    新手上路,请谨慎驾驶!

    51 引用 • 226 回帖
  • 分享

    有什么新发现就分享给大家吧!

    242 引用 • 1747 回帖 • 1 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    169 引用 • 799 回帖 • 1 关注
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖 • 1 关注
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    53 引用 • 85 回帖
  • 职场

    找到自己的位置,萌新烦恼少。

    126 引用 • 1699 回帖 • 1 关注
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    76 引用 • 390 回帖
  • 安全

    安全永远都不是一个小问题。

    189 引用 • 813 回帖
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    180 引用 • 400 回帖
  • 支付宝

    支付宝是全球领先的独立第三方支付平台,致力于为广大用户提供安全快速的电子支付/网上支付/安全支付/手机支付体验,及转账收款/水电煤缴费/信用卡还款/AA 收款等生活服务应用。

    29 引用 • 347 回帖 • 1 关注
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    35 引用 • 35 回帖
  • abitmean

    有点意思就行了

    22 关注
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖 • 1 关注
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 6 关注
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    103 引用 • 294 回帖
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    138 引用 • 268 回帖 • 197 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 346 关注
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 461 关注
  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    131 引用 • 3639 回帖
  • 工具

    子曰:“工欲善其事,必先利其器。”

    273 引用 • 679 回帖 • 1 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    163 引用 • 1450 回帖