我使用fileStream从Spark(流式上下文)中读取hdfs目录中的文件.如果我的Spark关闭并在一段时间后启动,我想读取目录中的新文件.我不想读取已经由Spark读取和处理的目录中的旧文件.我试图在这里避免重复.
val lines = ssc.fileStream[LongWritable,Text,TextInputFormat]("/home/File")
任何代码片段都有帮助吗?