[TOC]前言本篇安装的是单机版Hive3.1.2安装教程。环境准备CentOS 7.X环境JDK1.8hadoop3.2.1(伪分布式)可参考文章:CentOS7 Hadoop安装教程一、安装1.1 将apache-hive-3.1.2-bin.tar.gz安装包上传到服务器[hadoop@hadoop001 sources]$ sudo rz1.2 将安装包解压到/opt/softwar...
一、IP配置刚装进行安装的CentOS7是没有IP地址的,需要对配置文件进行配置1.1 修改网卡配置文件# (最后一个为网卡名称) vi /etc/sysconfig/network-scripts/ifcfg-ens33 #修改ONBOOT将no改成yes ONBOOT=yes1.2 修改后重启网络服务systemctl restart network1.3 查看本机IP地址ip add...
[TOC]前言本次安装使用的虚拟机:VMware Workstation 16 Pro,大家可使用自身的虚拟机进行安装。安装CentOS版本:CentOS-7-x86_64-DVD-2009.iso一、下载镜像文件地址:https://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/PS:本链接是直接通过阿里云镜像进行下载的,比官网下载链接快太多...
[TOC]前言 由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实从结构上来看,Hive和数据库除了拥有类似的查询语言,再无类似之处。数据库可以用在Online的应用中,但是Hive是为数据仓库而设计的,清楚这一点,有助于从应用角度理解Hive的特性。一、Hive和传统数据库对比属性Hive传统数据库查询语言HQLSQL数据存储位置HDFSRaw...
[TOC]前言本篇Hive架构原理在来回顾一下Hive的本质。Hive本质:是将HQL语句转化成MapReduce程序。在它的底层:HDFS负责存储数据;YARN负责进行资源管理;MapReduce负责数据处理。一、Hive架构说明用户接口:ClientCLI(command-line interface)、JDBC/ODBC(jdbc 访问 hive)、WEBUI(浏览器访问 hive)元...
[TOC]一、Hive简介最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将...
[TOC]前言本篇将通过示例讲解:偏移分析函数+over()一、偏移分析函数概念lag(col,n,default):用于统计分组内往上第n行值。第一个参数为列名第二个参数为往上第n行(可选,不填默认为1)第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)lead(col,n,default):与lag相反,统计分组内往下第n行值。第一个参数为列名第二个参数为...
[TOC]前言本篇将通过示例讲解窗口函数中的组内排序函数:排序函数+over()一、排序函数说明row_number():会生成数据项在分组中的排名,排名即便相等也不会有并列排名,相同排名随机排序。rank():可以生成数据项在分组中的排名,排名相等时会产生并列排名,然后会在名次中留下空位。dense_rank():可以生成数据项在分组中的排名,排名相等时会产生并列排名,但不会在名次中留下空...
[TOC]前言本篇将介绍通过聚合函数+over()示例,对窗口函数做一个更好的了解。常用的聚合函数包括:sum():累加求和avg():求平均值max/min():求最大/最小值count():统计行的数量一、数据准备2020~2021年电商平台订单信息表user_order创建语句CREATE TABLE `user_order` ( `user_name` varchar(20) D...