问题描述
小文件和HDFS出现问题。
场景:我正在使用NiFi读取来自Kafka主题的消息,这些消息确实很小。
要求:将这些原始数据消息存储在HDFS中(用于重播功能),然后再对其进行进一步处理。
我正在考虑定期对它们使用Hadoop Archive(HAR)。那是我可以通过NiFi做的事情吗? har命令似乎是命令行的东西,而不是我可以通过Nifi执行的东西?很想知道一个可以满足我的要求的解决方案,而不会因为文件太小而降低HDFS。
吉尼尔
解决方法
您可以使用ExecuteProcess处理器在Nifi中执行命令行:
您还可以查看将Kafka记录放入HDFS中的Kafka-connect HDFS。