CentOS7.9安装教程

[TOC]前言本次安装使用的虚拟机:VMware Workstation 16 Pro,大家可使用自身的虚拟机进行安装。安装CentOS版本:CentOS-7-x86_64-DVD-2009.iso一、下载镜像文件地址:https://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/PS:本链接是直接通过阿里云镜像进行下载的,比官网下载链接快太多倍了。二、创建新的虚拟机2.1 点击创建新的虚拟机2.2 选择自定义虚拟机向导,再点击下一步2.3 选项默认,直接选择下一步2.4 选择【稍后安装操作系统】,在点击下一步2.5 版本选择【CentOS...

工具 2021-11-28 PM 1614℃ 0条

03.Hive和数据库比较

[TOC]前言​ 由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实从结构上来看,Hive和数据库除了拥有类似的查询语言,再无类似之处。数据库可以用在Online的应用中,但是Hive是为数据仓库而设计的,清楚这一点,有助于从应用角度理解Hive的特性。一、Hive和传统数据库对比属性Hive传统数据库查询语言HQLSQL数据存储位置HDFSRaw Device或者 Local FS数据格式用户自定义系统决定数据更新不支持支持执行MapReduceExcutor执行延迟高低处理数据规模大小索引0.8版本后加入位图索引有复杂的索引可扩展性高低二、...

大数据 2021-11-27 PM 928℃ 0条

02.Hive架构原理

[TOC]前言本篇Hive架构原理在来回顾一下Hive的本质。Hive本质:是将HQL语句转化成MapReduce程序。在它的底层:HDFS负责存储数据;YARN负责进行资源管理;MapReduce负责数据处理。一、Hive架构说明用户接口:ClientCLI(command-line interface)、JDBC/ODBC(jdbc 访问 hive)、WEBUI(浏览器访问 hive)元数据:Metastore元数据包括:表名、表所属的数据库(默认是 default)、表的拥有者、列/分区字段、 表的类型(是否是外部表)、表的数据所在目录等;默认存储在自带的 derby 数据库中,推...

大数据 2021-11-27 PM 840℃ 0条

01.Hive基本概念

[TOC]一、Hive简介最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive定义了简单的类SQL查询语言,称为 HiveQL,它允许熟悉 SQL的用户查询数据。官网地址:https://hive.apache.org/二、...

大数据 2021-11-27 PM 817℃ 0条

MySQL高级应用窗口函数(四)

[TOC]前言本篇将通过示例讲解:偏移分析函数+over()一、偏移分析函数概念lag(col,n,default):用于统计分组内往上第n行值。第一个参数为列名第二个参数为往上第n行(可选,不填默认为1)第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)lead(col,n,default):与lag相反,统计分组内往下第n行值。第一个参数为列名第二个参数为往下第n行(可选,不填默认为1)第三个参数为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)first_value(col):用于取分组内排序后,截止到当前行,第一个col的值。...

Java 2021-11-21 PM 959℃ 0条

MySQL高级应用窗口函数(三)

[TOC]前言本篇将通过示例讲解窗口函数中的组内排序函数:排序函数+over()一、排序函数说明row_number():会生成数据项在分组中的排名,排名即便相等也不会有并列排名,相同排名随机排序。rank():可以生成数据项在分组中的排名,排名相等时会产生并列排名,然后会在名次中留下空位。dense_rank():可以生成数据项在分组中的排名,排名相等时会产生并列排名,但不会在名次中留下空位。ntile(k):函数的作用是等频分箱,把观测值进行有序排列(默认升序),根据观测值的总个数等分为k部分,每部分当作一个分箱,即百分位数的概念。如果不能平均分配,则优先分配较小编号的桶,并且各个桶...

Java 2021-11-21 PM 977℃ 0条

MySQL高级应用窗口函数(二)

[TOC]前言本篇将介绍通过聚合函数+over()示例,对窗口函数做一个更好的了解。常用的聚合函数包括:sum():累加求和avg():求平均值max/min():求最大/最小值count():统计行的数量一、数据准备2020~2021年电商平台订单信息表user_order创建语句CREATE TABLE `user_order` ( `user_name` varchar(20) DEFAULT NULL, `piece` int DEFAULT NULL, `price` double DEFAULT NULL, `pay_amount` double DEFAUL...

Java 2021-11-18 PM 1251℃ 0条

MySQL高级应用窗口函数(一)

[TOC]前言一般我们经常使用的函数分为两类:普通函数和聚合函数。但是这两类函数对于一些相对复杂的报表统计分析场景实现起来相对麻烦。本篇将讲述第三种函数:窗口函数。MYSQL 从 8.0.2 版本起开始支持窗口函数,这个功能在大多商业数据库和部分开源数据库中早已支持。我们平常使用SQL语句中Hive、SparkSQL、Oracle、SQL Server都很早就开始支持窗口函数。本来本篇内容想通过SparkSQL来进行叙述,但是考虑到MySQL对大家来说相对较熟悉,所以窗口函数系列文章将围绕MySQL 8.0版本进行叙述。安装MySQL 8.0数据库可以看本篇教程:CentOS7.X安装M...

Java 2021-11-17 PM 1209℃ 0条

CentOS7.X安装MySQL8.0教程

[TOC]一、下载下载地址:https://dev.mysql.com/downloads/mysql/目前下载的版本是mysql-8.0.27-1.el7.x86_64,本次安装使用的是mysql-8.0.23-1.el7.x86_64。如果需要安装mysql-8.0.23-1.el7.x86_64在微信公众号【Java和大数据进阶】回复mysql即可。二、卸载2.1 查看mariadb的安装包[root@hadoopserver ~]# rpm -qa | grep mariadb mariadb-libs-5.5.44-2.el7.centos.x86_642.2 卸载mariad...

Java 2021-11-16 PM 1207℃ 0条

SparkSQL案例实操(五)

[TOC]一、需求统计用户上网流量统计用户上网流量,如果两次上网的时间小于10min,就可以rollup(合并)到一起二、数据准备merge.dat文件id start_time end_time flow 1 14:20:30 14:46:30 20 1 14:47:20 15:20:30 30 1 15:37:23 16:05:26 40 1 16:06:27 17:20:49 50 1 17:21:50 18:03:27 60 2 14:18:24 15:01:40 20 2 15:20:49 15:30:24 30 2 16:01:23 16:40:32 40 2 16:44:5...

大数据 2021-11-14 PM 1039℃ 0条