18.Flink window API介绍

[TOC]一、窗口(window) 概念streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎无限数据集是指一种不断增长的本质上无限的数据集窗口(window)是一种切割无限数据为有限块进行处理的手段Window是无限数据流处理的核心,Window将一个无限的stream拆分成有限大小的”buckets”桶,我们可以在这些桶上做计算操作Flink认为Batch是Streami...

大数据 2022-01-20 PM 996次 0条

17.Flink流处理API之Sink

[TOC]前言使用 Flink 进行数据处理时,数据经 Data Source 流入,通过系列 Transformations 的转化,最终可以通过 Sink 将计算结果进行输出,Flink Data Sinks 就是用于定义数据流最终的输出位置。一、概述Flink没有类似于spark中foreach方法,让用户进行迭代的操作。虽有对外的输出操作都要利用Sink完成。最后通过类似如下方式完成...

大数据 2022-01-17 PM 926次 0条

16.Flink实现UDF函数

前言实现UDF的目的是为了更加细粒度的控制流。一、函数类(Function Classes)Flink暴露了所有UDF函数的接口(实现方式为接口或者抽象类)。例如MapFunction, FilterFunction, ProcessFunction等等。下面例子实现了FilterFunction接口://自定义函数类,筛选出成绩大于等于60的学生 class MyFilter extend...

大数据 2022-01-16 PM 985次 0条

15【转载】Flink数据类型和序列化

[TOC]一、为 Flink 量身定制的序列化框架为什么要为 Flink 量身定制序列化框架?​ 大家都知道现在大数据生态非常火,大多数技术组件都是运行在 JVM 上的,Flink 也是运行在 JVM 上,基于 JVM 的数据分析引擎都需要将大量的数据存储在内存中,这就不得不面临 JVM 的一些问题,比如 Java 对象存储密度较低等。 针对这些问题,最常用的方法就是实现一个显...

大数据 2022-01-14 PM 758次 0条

14.Flink流处理API之Transform转换算子

[TOC]1、Map作用将数据流中的数据进行转换, 形成新的数据流,消费一个元素并产出一个元素。示例需求:使用Map将数据转换成样例类代码import org.apache.flink.streaming.api.scala._ /** * Created by lilinchao * Date 2022/1/13 * Description 使用Map将数据转换成样例类 ...

大数据 2022-01-13 PM 1048次 0条

13.Flink流处理API之Source

[TOC]前言flink支持从文件、socket、集合中读取数据。同时也提供了一些接口类和抽象类来支撑实现自定义Source。版本:flink 1.14.2scala 2.12一、基于本地集合的source引入pom.xml依赖<properties> <flink.version>1.14.2</flink.version> <sc...

大数据 2022-01-12 PM 1020次 0条

12.Flink流处理API之Environment

前言流处理基本步骤:(1)创建环境(类似于spark里的上下文SparkContext);(2)添加数据来源Source;(3)对数据进行Transform处理;(4)添加输出Sink。一、Environment分类1、批处理ExecutionEnvironmentLocalEnvironment:本地模式执行RemoteEnvironment :提交到远程集群执行CollectionEnv...

大数据 2022-01-10 PM 1157次 0条

11.Flink并行度和任务链

[TOC]一、并行度(Parallelism)1.1 概念​ Flink程序的执行具有并行、分布式的特性。​ 在执行过程中,一个流(stream)包含一个或多个分区(stream partition),而每一个算子(operator)可以包含一个或多个子任务(operator subtask),这些子任务在不同的线程、不同的物理机或不同的容器中彼此互不依赖地执行。...

大数据 2022-01-10 PM 1253次 0条

10.Flink数据流和执行图介绍

[TOC]一、数据流(Dataflow)1.1 概述数据流(Dataflow):描述了数据如何在不同操作之间流动,Dataflow程序通常表现为有向无环图(DAG)。1.2 分类Flink程序由三部分组成:Source(数据源):负责获取输入数据;Flink 在流处理和批处理上的 source 大概有 4 类:基于本地集合的 source、基于文件的 source、基于网络套接字的 sour...

大数据 2022-01-09 PM 1302次 0条

ELK生命周期管理使用详解

[TOC]前言一般在使用ELK对日志进行收集时,为了避免单个索引文件过大,通常按日期来对日志做切割,根据日期对产生的日志生成相应的索引。索引名称通常如下方所示:nginx_log-2022.01.01 nginx_log-2022.01.02 nginx_log-2022.01.03 nginx_log-2022.01.04 nginx_log-2022.01.05上方是从nginx采集过来...

大数据 2021-12-31 PM 1541次 0条