您当前的位置: 首页 >  梁云亮 hive

Hive 分区

梁云亮 发布时间:2020-03-05 11:50:12 ,浏览量:3

分区简介

Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。分区表实际上对应一个HDFS文件系统上的文件夹,该文件夹下是该分区的数据文件。

HIVE的分区通过在创建表时启用partition by实现,具体分区的标识是插入内容时指定的。当要查询某一分区的内容时可以采用where语句,通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。

示例:

  1. 准备数据
    在Linux的/usr/local/test目录下面创建如下三个文件
    • stu1.txt:
      zhangsan 13 male shiziBan
      lisi 14 female musicBan
      wanger 19 male musicBan
      mazi 15 male shiziBan
    • stu2.txt:
      qianwu 12 female wudaoBan
      zhaoliu 16 female shiziBan
      lisi 18 male wudaoBan
      xiangming 13 female shiziBan
    • stu3.txt:
      wangwei 18 female wudaoBan
      ligang 10 male musicBan

创建分区表

  1. 导入数据

查看数据




增加分区

删除分区

查看分区个数

查看分区结构


二级分区

二级分区指是2个分区字段
示例:
第一步:创建二级分区表:

第二步:导入数据

第三步:查询数据

分区和数据关联的方式

方式一:先上传数据后恢复

  1. 创建目录并上传文件
  2. 修复之后才能查询到数据

方式二:先上传数据后添加分区

  1. 创建目录、上传数据
  2. 添加分区后查询

方式三:先创建文件夹后load数据到分区

  1. 创建文件夹
  2. load数据到分区
  3. 查询
关注
打赏
查看更多评论

梁云亮

暂无认证

  • 3浏览

    0关注

    1121博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录