06.数仓建设之基于Flink SQL从0到1构建一个实时数仓

[TOC]前言本小节内容来自大数据技术与数仓实时数仓主要解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析,实时大屏展示,实时监控报警各个场景。虽然关于实时数仓架构及技术选型与传统的离线数仓会存在差异,但是关于数仓建设的基本方法论是一致的。接下来主要介绍Flink SQL从0到1搭建一个实时数仓的demo,涉及到数据采集、存储、计算、可视化整个流程。一、案例简介本文以电商业务为例,展示实时数仓的数据处理流程。另外,本文旨在说明实时数仓的构建流程,所以不会涉及复杂的数据计算。为了保证案例的可操作性和完整性,本文会给出详细的操作步骤。为了方便演示,本文的所有操作都是在Fli...

大数据 2022-09-27 PM 5℃ 0条

05.数仓建设之实时数仓建设核心

[TOC]一、实时计算初期虽然实时计算在最近几年才火起来,但是在早期也有部分公司有实时计算的需求,但是数据量比较少,所以在实时方面形成不了完整的体系,基本所有的开发都是具体问题具体分析,来一个需求做一个,基本不考虑它们之间的关系,开发形式如下:如上图所示,拿到数据源后,会经过数据清洗,扩维,通过Flink进行业务逻辑处理,最后直接进行业务输出。把这个环节拆开来看,数据源端会重复引用相同的数据源,后面进行清洗、过滤、扩维等操作,都要重复做一遍,唯一不同的是业务的代码逻辑是不一样的。随着产品和业务人员对实时数据需求的不断增多,这种开发模式出现的问题越来越多:数据指标越来越多,“烟囱式”的开发...

大数据 2022-09-26 AM 10℃ 0条

04.数仓建设之实时计算

[TOC]前言实时计算一般都是针对海量数据进行的,并且要求为秒级。由于大数据兴起之初,Hadoop并没有给出实时计算解决方案,随后Storm,SparkStreaming,Flink等实时计算框架应运而生,而Kafka,ES的兴起使得实时计算领域的技术越来越完善,而随着物联网,机器学习等技术的推广,实时流式计算将在这些领域得到充分的应用。实时计算的三个特征:无限数据:无限数据指的是一种不断增长的,基本上无限的数据集。这些通常被称为“流数据”,而与之相对的是有限的数据集。无界数据处理:一种持续的数据处理模式,能够通过处理引擎重复的去处理上面的无限数据,是能够突破有限数据处理引擎的瓶颈的。低...

大数据 2022-09-23 PM 24℃ 0条

03.数仓建设之离线数仓建设实战

[TOC]前言技术是为业务服务的,业务是为公司创造价值的,离开业务的技术是无意义的。一、业务介绍需要针对不同需求的用户开发不同的产品,所以公司内部有很多条业务线,但是对于数据部门来说,所有业务线的数据都是数据源。对数据的划分不只是根据业务进行,而是结合数据的属性。二、早期规划之前开发是不同业务线对应不同的数据团队,每个数据团队互不干扰,这种模式比较简单,只针对自己的业务线进行数仓建设及报表开发即可。但是随着业务的发展,频繁迭代及跨部门的垂直业务单元越来越多,业务之间的出现耦合情况,这时再采用这种烟囱式开发就出现了问题:例如权限问题,公司对数据管理比较严格,不同的数据开发组没有权限共享数据...

大数据 2022-09-22 AM 22℃ 0条

02.数仓建设之离线数仓建设核心

[TOC]前言数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。一、数仓分层数仓分层的原则:为便于数据分析,要屏蔽底层复杂业务,简单、完整、集成的将数据暴露给分析层。底层业务变动与上层需求变动对模型冲击最小化,业务系统变化影响削弱在基础数据层,结合自上而下的建设方法削弱需求变动对模型的影响。高内聚松耦合,即主题之内或各个完整意义的系统内数据的高内聚,主题之间或各个完整意义的系统间数据的松耦合。构建仓库基础数据层,使底层业务数据整合工作与上层应用开发工作相隔离,为仓库大规模开发奠定基础仓库层次更加清晰,对外暴露数据更加统一。一般采用如...

大数据 2022-09-21 AM 22℃ 0条

01.数仓建设之数仓基本概念

[TOC]前言本篇以及接下来更新的几篇关于数仓建设的文章都转载于大佬园陌,文章通俗易懂、内容全面非常值得向大家推荐!!!小编最近也在学习数仓相关知识,但是尝试好多次还是不能系统全面的整理出一套让自己满意的文章出来,特地转载大佬的文章大家一起学习,共同进步。再次感谢大佬,每篇文章末尾都会附上原文链接地址。一、数仓基本概念1、数据仓库架构我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个问题从来就没有一个准确的答案。这里我们引用一段话:在软件行业,一种被普遍接受的架构定义是指系统的一个或多个结构。结构中包括软件的构建(构建是指软件的设计与实现),构建的外部可以看到...

大数据 2022-09-20 PM 23℃ 0条

04.BurpSuite之Target介绍

[TOC]一、概述Burp Target 组件主要包含站点地图、目标域、Target 工具三部分组成,他们帮助渗透测试人员更好地了解目标应用的整体状况、当前的工作涉及哪些目标域、分析可能存在的攻击面等信息,下面就分别来看看Burp Target的三个组成部分。二、目标域设置 Target ScopeTarget Scope中作用域的定义比较宽泛,通常来说,当我们对某个产品进行渗透测试时,可以通过域名或者主机名去限制拦截内容,这里域名或主机名就是我们说的作用域;如果我们想限制得更为细粒度化,比如,你只想拦截login目录下的所有请求,这时我们也可以在此设置,此时,作用域就是目录。总体来说,...

工具 2022-09-19 PM 29℃ 0条

03.BurpSuite之Dashboard新建扫描

[TOC]一、概述Burp Scanner的功能主要是用来自动检测web系统的各种漏洞,可以使用Burp Scanner代替手工去对系统进行普通漏洞类型的渗透测试,从而能使测试人员把更多的精力放在那些必须要人工去验证的漏洞上。二、整体流程1、启动扫描可以通过多种方式启动扫描:从特定的 URL 扫描:这通过对一个或多个提供的 URL 中的内容进行爬取并有选择地审核爬取的内容来执行扫描。为此,请转到 Burp 仪表板,然后单击 “新建扫描” 按钮。扫描选定的项目:可以对特定的 HTTP 请求执行仅审核扫描(不进行爬取)。为此,在 Burp 中的任意位置选择一个或多个请求,然后从上下文菜单中选...

工具 2022-09-18 PM 40℃ 0条

02.BurpSuite之Proxy使用

[TOC]前言本次示例环境Burp Suite 2022.8.4Google Chrome浏览器一、概述Burp Proxy 是Burp Suite以用户驱动测试流程功能的核心,通过代理模式,可以让我们拦截、查看、修改所有在客户端和服务端之间传输的数据。Burp Proxy 主要拦截http和https协议的流量,通过拦截,Burp Suite以中间人的方式,可以对客户端请求数据、服务端返回做各种处理,以达到安全评估测试的目的。二、工作原理不使用代理通常浏览器直接通过80端口向服务器发送请求,然后服务器收到请求后,将请求结果返回给客户端。通过代理访问服务器使用代理访问,相当于浏览器在中间...

工具 2022-09-18 PM 37℃ 0条

01.BurpSuite2022.8.4安装教程

[TOC]前言因为现在公司和许多甲方对代码安全需求越来越高,需要使用BurpSuite工具对漏洞进行扫描和复现,本文将带着大家安装目前最新稳定版BurpSuite2022.8.4。Burp Suite的运行需要JAVA环境的支持,同时22版的Burp Suite现在已经不再支持Java8环境,需要在安装Java11环境。电脑配置情况windows 11系统已经安装过JDK 1.8该教程同时适用于windows 10系统,并且该教程会在JDK 1.8的基础之上同时安装JDK 11以适配BurpSuite2022.8.4环境。一、BurpSuite介绍Burp Suite是用于攻击web 应...

工具 2022-09-16 PM 58℃ 0条