将小文件存储在HDFS中并在Nifi Flow中归档

问题描述

文件和HDFS出现问题。

场景:我正在使用NiFi读取来自Kafka主题的消息,这些消息确实很小。

要求:将这些原始数据消息存储在HDFS中(用于重播功能),然后再对其进行进一步处理。

我正在考虑定期对它们使用Hadoop Archive(HAR)。那是我可以通过NiFi做的事情吗? har命令似乎是命令行的东西,而不是我可以通过Nifi执行的东西?很想知道一个可以满足我的要求的解决方案,而不会因为文件太小而降低HDFS。

吉尼尔

解决方法

您可以使用ExecuteProcess处理器在Nifi中执行命令行:

http://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi/nifi-standard-nar/1.6.0/org.apache.nifi.processors.standard.ExecuteProcess/

您还可以查看将Kafka记录放入HDFS中的Kafka-connect HDFS。