问题描述
我正在尝试在adls gen2中移动文件,对于标准任务,标准dbtutils.fs.mv相当慢,因为文件数超过200k。我正在考虑并行化该过程,因此我从文件列表中创建了一个RDD,并尝试在该dbutils.fs.mv中使用foreachPartition。当我尝试执行此操作时,它将引发错误-java.io.IOException:方案:wasbs没有文件系统
也尝试使用sc.hadoopConfiguration.set("fs.wasbs.impl","org.apache.hadoop.fs.azure.NativeAzureFileSystem")
,但这只是在Azure本机文件系统的行上又给出了另一个错误。
欢迎使用其他任何方法来实现这一目标。
谢谢。
解决方法
问题不在于foreachPartition,而是与ADLS Gen2一起使用,在已挂载的存储上工作正常。