[TOC]前言本篇文章转载于大佬文章:大数据技术与数仓一、概述ClickHouse提供了许多与外部系统集成的方法,包括一些表引擎。这些表引擎与其他类型的表引擎类似,可以用于将外部数据导入到ClickHouse中,或者在ClickHouse中直接操作外部数据源。例如直接读取HDFS的文件或者MySQL数据库的表。这些表引擎只负责元数据管理和数据查询,而它们自身通常并不负责数据的写入,数据文件直...
[TOC]前言本篇文章转载于大佬文章:大数据技术与数仓一、概述在所有的表引擎中,最为核心的当属MergeTree系列表引擎,这些表引擎拥有最为强大的性能和最广泛的使用场合。对于非MergeTree系列的其他引擎而言,主要用于特殊用途,场景相对有限。而MergeTree系列表引擎是官方主推的存储引擎,支持几乎所有ClickHouse核心功能。二、MergeTree表引擎MergeTree在写入...
[TOC]前言本篇文章转载于大佬文章:大数据技术与数仓一、概述本文将介绍ClickHouse中一个非常重要的概念—表引擎(table engine)。如果对MySQL熟悉的话,或许你应该听说过InnoDB和MyISAM存储引擎。不同的存储引擎提供不同的存储机制、索引方式、锁定水平等功能,也可以称之为表类型。ClickHouse提供了丰富的表引擎,这些不同的表引擎也代表着不同的表类型。比如数据...
[TOC]前言ClickHouse的数据类型分为:基础类型复合类型特殊类型一、基础类型1.1 数值类型ClickHouse的数值类型和Numpy的数值类型类似,比如int32、int64、uint32、float32 和float64等。整数ClickHouse支持有符号和无符号的整数。有符号整数Int<位数>:名称范围大概范围对应MySQL数据类型Int8-128 ~ 127百...
[TOC]前言安装环境:CentOS 7.9安装版本:clickhouse 21.7.3.14-2版本选择:版本命名规则 Year.Major.Minor.patchYear.Major.1.patch 1 表示测试版,大于1表示稳定版本。有重大的更新和新特性主要在Minor为2的版本。体验最新的测试功能可以选择prestable或者testing版本。对于企业来说可以选择LTS的稳定版本,...
[TOC]一、概述ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库(DBMS),使用 C++ 语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。二、ClickHouse的特点2.1 列式存储以下面的表为例:IDNameAge1张三182李四223王五34(1)采用行式存储时,数据在磁盘上的组织结构为: ...
[TOC]一、介绍 OLAP 名为联机分析处理,又可以称之为多维分析处理,是由关系型数据之父于 1993 年提出的概念。顾名思义,它指的是通过多种不同的维度审视数据,进行深层次分析。维度可以看成是观察数据的一种视角,例如人类能看到的世界是三维的,它包含长、宽、高三个维度。直接一点理解,维度就好比是一张数据表的字段,而多维分析则是基于这些字段进行聚合查询。那么多维分析通常都包含...
[TOC]一、概述 条件工作流功能允许用户自定义执行条件来决定是否运行某些Job。条件可以由当前Job的父 Job 输出的运行时参数构成,也可以使用预定义宏。在这些条件下,用户可以在确定 Job执行逻辑时获得更大的灵活性,例如,只要父 Job 之一成功,就可以运行当前 Job。二、运行时参数案例2.1 基本原理(1)父 Job 将参数写入JOB_OUTPUT_PROP_FIL...
[TOC]前言本篇将以一个简单的案例演示通过Azkaban平台来调度执行Java程序。一、Azkaban调度类型介绍azkaban 可以支持非常多的任务类型,常用的任务类型有如下几种:Command:使用Linux shell命令行任务。HadoopShell:这和Command一样也是命令类型,只不过可以和Hadoop集群通信。Java:调度执行Java任务。hadoopJava:也是一种...