S3中德鲁伊的Delta摄入

问题描述

我正在通过德鲁伊进行POC。我正在从s3提取数据,使用认配置需要289 MB数据约7分钟。现在,我已设置“ maxnumConcurrentSubTasks”:2 “ appendToExisting”:true 。当尝试从s3将相同的数据导入druid时,所花费的时间几乎与上述相同。我期待的时间要少得多,因为我没有更新任何数据,而是尝试附加而不是覆盖完整的数据。

我是否误解了德鲁伊中append的概念,还有从s3进行delta摄取的最佳方法吗?任何线索将不胜感激。

解决方法

在控制台中,检查子任务是否正在同时运行。您可能需要修改druid.worker.capacity来告诉Druid,更多内核可用于摄取。

请参见https://druid.apache.org/docs/latest/configuration/index.html#middlemanager-configuration

值得检查此文档的更新及其工作方式。 https://druid.apache.org/docs/latest/ingestion/data-management.html#updating-existing-data

还有一个有用的教程: https://druid.apache.org/docs/latest/tutorials/tutorial-update-data.html

令人敬畏的Itai写了一篇关于保留的博客文章(无论如何都很好阅读),但是其中有一些关于摄取δ的信息……我从未尝试过他的把戏,但是您可以做一些实验,让我们所有人知道你发现了什么:D:D

https://medium.com/nmc-techblog/data-retention-and-deletion-in-apache-druid-74ffd12398a8