在Python中将草图与Apache Beam或Apache Flink结合使用

问题描述

我想将KLL sketch用于流应用程序。问题在于,KLL草图是有状态的计算,因此不是幂等的。可以在Beam或Flink中使用,最好在Python中使用吗?

Apache Datasketch说Integration efforts have started with Apache Flink and Apache Impala. There is also interest from Apache Beam。主要困难是什么?大多数草图在内部使用基本类型和数组。

解决方法

您可以使用state and timers在流束管道中使用它。