Flink 入门教程

Gary

4 年前

不得不说，Flink 这两年是真的火🔥这篇文章主要讲讲Flink入门时一些可能看不太懂的点又或是看官方介绍看不太懂的点（API我就不细说了，多用用应该都能看懂）。

1. 什么是Flink？

在Flink的官网上，可以把官方文档语言设置为中文，于是我们可以看到官方是这样介绍的：

上面的图我们每个字都能看得懂，但连起来就看不懂了。

不管怎么样，我们可以了解到：Flink是一个分布式的计算处理引擎

分布式：「它的存储或者计算交由多台服务器上完成，最后汇总起来达到最终的效果」。
实时：处理速度是毫秒级或者秒级的
计算：可以简单理解为对数据进行处理，比如清洗数据（对数据进行规整，取出有用的数据）

基于官网的一句话介绍，我们就可以联想出很多东西。

这篇文章可以带你简单认识一下 Flink 的一些基础概念，等你真正用到的时候就可以依据这篇文章来对Flink进行入门，现在 Storm 都被很多人给抛弃掉了，那么Flink优于 Storm 的地方有哪些呢？接下来我们一起来看看 Flink 吧。

2. 什么是有边界和无边界？

Apache Flink 是一个框架和分布式处理引擎，用于在 无边界和有边界 数据流上进行有状态的计算。

官方其实也有介绍，但对初学者来说不太好理解，我来幼儿园化一下。

大家学到 Flink 了，消息队列肯定有用过吧？那你们是怎么用消息队列的呢？Producer 生产数据，发给 Broker，Consumer消费，完事。

在消费的时候，我们需要管什么Producer什么时候发消息吗？不需要吧。反正来一条，我就处理一条，没毛病吧。

这种没有做任何处理的消息，默认就是无边界的。

那有边界就很好理解了：无边界的基础上加上条件，那就是有边界的。加什么条件呢？

比如我要加个时间：我要消费从8月8号到8月9号的数据，那就是有边界的。

什么时候用无边界，什么时候用有边界？那也很好理解。我做数据清洗：来一条，我处理一条，这种无边界的就好了。我要做数据统计：每个小时的 pv(page view)是多少，那我就设置1小时的边界，攒着一小时的数据来处理一次。

在Flink上，设置“边界”这种操作叫做开窗口(Windows)，窗口可简单分为两种类型：

时间窗口(TimeWindows)：按照时间窗口进行聚合，比如上面所讲得攥着一个小时的数据处理一次。
计数窗口(CountWindows)：按照指定的条数来进行聚合，比如每来了10条数据处理一次。

看着就非常人性化（妈妈再也不用担心我需要聚合了）…

不仅如此，在 Flink 使用窗口聚合的时候，还考虑到了数据的准确性问题。比如说：现在我在11:06分产生了5条数据，在11:07分产生了4条数据，我现在是按每分钟的维度来进行聚合计算。

理论上来讲：Flink应该是在06分聚合了5条数据，在07分聚合了4条数据。但是，可能由于网络的延迟性等原因，导致06分的3条数据在07分时 Flink 才接收到。如果不做任何处理，那07分有可能处理了7条条数据。

某些需要准确结果的场景来说，这就不太合理了。所以Flink可以给我们指定”时间语义“，不指定默认是「数据到Flink的时间」Processing Time来进行聚合处理，可以给我们指定聚合的时间以「事件发生的时间」Event Time来进行处理。

事件发生的时间指的就是：日志真正记录的时间

2020-11-22 00:00:02.552 INFO  [http-nio-7001-exec-28] c.m.t.rye.admin.web.aop.LogAspect

虽然指定了聚合的时间为「事件发生的时间」Event Time，但还是没解决数据乱序的问题（06分产生了5条数据，实际上06分只收到了3条，而剩下的两条在07分才收到，那此时怎么办呢？在06分时该不该聚合，07分收到的两条06分数据怎么办？）

Flink 又可以给我们设置水位线(waterMarks)，Flink意思就是：存在网络延迟等情况导致数据接收不是有序，这种情况我都能理解。你这样吧，根据自身的情况，你可以设置一个「延迟时间」，等延迟的时间到了，我再聚合统一聚合。

比如说：现在我知道数据有可能会延迟一分钟，那我将水位线waterMarks设置延迟一分钟。

解读：因为设置了「事件发生的时间」Event Time，所以 Flink 可以检测到每一条记录发生的时间，而设置了水位线waterMarks设置延迟一分钟，等到 Flink 发现07分59秒的数据来到了 Flink，那就确信06分的数据都来了（因为设置了1分钟延迟），此时才聚合06分的窗口数据。