06.数仓建设之基于Flink SQL从0到1构建一个实时数仓

[TOC]前言本小节内容来自大数据技术与数仓实时数仓主要解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析,实时大屏展示,实时监控报警各个场景。虽然关于实时数仓架构及技术选型与传统的离线数仓会存在差异,但是关于数仓建设的基本方法论是一致的。接下来主要介绍Flink SQL从0到1搭建一个实时数仓的demo,涉及到数据采集、存储、计算、可视化整个流程。一、案例简介本文以电商业...

大数据 2022-09-27 PM 5次 0条

05.数仓建设之实时数仓建设核心

[TOC]一、实时计算初期虽然实时计算在最近几年才火起来,但是在早期也有部分公司有实时计算的需求,但是数据量比较少,所以在实时方面形成不了完整的体系,基本所有的开发都是具体问题具体分析,来一个需求做一个,基本不考虑它们之间的关系,开发形式如下:如上图所示,拿到数据源后,会经过数据清洗,扩维,通过Flink进行业务逻辑处理,最后直接进行业务输出。把这个环节拆开来看,数据源端会重复引用相同的数据...

大数据 2022-09-26 AM 10次 0条

04.数仓建设之实时计算

[TOC]前言实时计算一般都是针对海量数据进行的,并且要求为秒级。由于大数据兴起之初,Hadoop并没有给出实时计算解决方案,随后Storm,SparkStreaming,Flink等实时计算框架应运而生,而Kafka,ES的兴起使得实时计算领域的技术越来越完善,而随着物联网,机器学习等技术的推广,实时流式计算将在这些领域得到充分的应用。实时计算的三个特征:无限数据:无限数据指的是一种不断增...

大数据 2022-09-23 PM 24次 0条

03.数仓建设之离线数仓建设实战

[TOC]前言技术是为业务服务的,业务是为公司创造价值的,离开业务的技术是无意义的。一、业务介绍需要针对不同需求的用户开发不同的产品,所以公司内部有很多条业务线,但是对于数据部门来说,所有业务线的数据都是数据源。对数据的划分不只是根据业务进行,而是结合数据的属性。二、早期规划之前开发是不同业务线对应不同的数据团队,每个数据团队互不干扰,这种模式比较简单,只针对自己的业务线进行数仓建设及报表开...

大数据 2022-09-22 AM 22次 0条

02.数仓建设之离线数仓建设核心

[TOC]前言数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。一、数仓分层数仓分层的原则:为便于数据分析,要屏蔽底层复杂业务,简单、完整、集成的将数据暴露给分析层。底层业务变动与上层需求变动对模型冲击最小化,业务系统变化影响削弱在基础数据层,结合自上而下的建设方法削弱需求变动对模型的影响。高内聚松耦合,即主题之内或各个完整意义的系统内...

大数据 2022-09-21 AM 22次 0条

01.数仓建设之数仓基本概念

[TOC]前言本篇以及接下来更新的几篇关于数仓建设的文章都转载于大佬园陌,文章通俗易懂、内容全面非常值得向大家推荐!!!小编最近也在学习数仓相关知识,但是尝试好多次还是不能系统全面的整理出一套让自己满意的文章出来,特地转载大佬的文章大家一起学习,共同进步。再次感谢大佬,每篇文章末尾都会附上原文链接地址。一、数仓基本概念1、数据仓库架构我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,...

大数据 2022-09-20 PM 23次 0条

FileBeat自动关闭问题解决

[TOC]一、前言版本信息:filebeat-8.3.3-linux-x86_64.tar.gz启动命令nohup ./filebeat -e -c filebeat-myconf.yml > filebeat.log 2>&1 &问题描述当FileBeat很久没有拉取到日志信息会自动关闭二、解决方案自定义Service方式启动2.1 创建filebeat.ser...

大数据 2022-09-07 PM 77次 0条

13.ClickHouse之MaterializeMySQL引擎

[TOC]前言MaterializeMySQL号称ClickHouse的王炸功能,本篇文章将结合具体示例来对MaterializeMySQL进行一个介绍本篇示例版本ClickHouse 21.7.3.14-2MySQL 8.0.23一、概述​ MySQL 的用户群体很大,为了能够增强数据的实时性,很多解决方案会利用 binlog 将数据写入到 ClickHouse。为了能够监听...

大数据 2022-05-06 PM 237次 0条

12.ClickHouse之物化视图

[TOC]前言​ ClickHouse 的物化视图是一种查询结果的持久化,它确实是给我们带来了查询效率的提升。用户查起来跟表没有区别,它就是一张表,它也像是一张时刻在预计算的表,创建的过程它是用了一个特殊引擎,加上后来 as select,就是 create 一个 table as select 的写法。​ “查询结果集”的范围很宽泛,可以是基础表中部分数据的一份...

大数据 2022-05-05 PM 257次 0条

11.ClickHouse之数据一致性

[TOC]一、概述查询 CK 手册发现,即便对数据一致性支持最好的 Mergetree,也只是保证最终一致性:我们在使用 ReplacingMergeTree、SummingMergeTree 这类表引擎的时候,会出现短暂数据不一致的情况。在某些对一致性非常敏感的场景,通常有以下几种解决方案。二、准备测试表和数据(1)创建表CREATE TABLE test_a( user_id U...

大数据 2022-05-05 PM 319次 0条