1. Flink 窗口是什么?
Flink 作业中的窗口是指一种对无限数据流设置有限数据集,从而实现了处理无线数据流的机制。
窗口本身只是个划分数据集的依据,它并不存储数据。
当我们需要在时间窗口维度上对数据进行聚合时,窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API,我们可以将数据流切分成一个个窗口,对窗口内的数据进行处理。
窗口主要有两种,一种基于时间的时间窗口(TimeWindow
),一种基于数量的计数窗口(CountWindow
),计数窗口与时间无关,本文主要讨论时间窗口。
2. 时间窗口
在 Flink 源码中,用 TimeWindow
表示。每个TimeWindow
都有一个开始时间和结束时间,表示一个左闭右开的时间段。Flink为我们提供了一些内置的WindowAssigner
,如滚动窗口、滑动窗口和会话窗口。
(具体说明请往下看)
2.1 滚动窗口(Tumbling Window)
滚动窗口模式下窗口之间不重叠,且窗口长度Size
是固定的。我们可以用TumblingEventTimeWindows
和TumblingProcessingTimeWindows
创建一个基于Event Time
或Processing Time
的滚动时间窗口。窗口的长度可以用org.apache.flink.streaming.api.windowing.time.Time
中的seconds
、minutes
、hours
和days
来设置。
2.2 滑动窗口(Sliding Window)
滑动窗口以一个步长(Slide)不断向前滑动,窗口的长度固定。使用时,我们要设置Slide
和Size
。Slide
的大小决定了 Flink 以多快的速度来创建新的窗口,Slide
较小,窗口的个数会很多。Slide
小于窗口的Size
时,相邻窗口会重叠,一个元素会被分配到多个窗口;Slide
大于Size
,有些元素可能被丢掉。
2.3 会话窗口(Session Window)
会话窗口模式下,两个窗口之间有一个间隙,被称为Session Gap
。当一个窗口在大于Session Gap
的时间内没有接收到新数据时,窗口将关闭。在这种模式下,窗口的长度是可变的,每个窗口的开始和结束时间并不是确定的。我们可以设置定长的Session Gap
,也可以使用SessionWindowTimeGapExtractor
动态地确定Session Gap
的长度。
参考资料: