融合的 s3 源连接器如何知道它已经摄取了哪些文件,哪些是新的?

问题描述

https://docs.confluent.io/kafka-connect-s3-source/current/

我认为此连接器会轮询 s3 以获取文件列表——但它是否会保留有关已处理哪些文件以及哪些是新文件的状态?如果它确实存储状态,那么状态存储在哪里?

解决方法

通常,源连接器将状态存储在配置的 config.offsets.topic 中,虽然我没有使用过这个特定的连接器,但我想它必须依赖于单调递增的 S3 密钥,例如由对应的 S3 接收器,因此不应该适用于任何随机的 S3 存储桶

this post

中有关于常规文件源连接器的一些详细信息