问题描述
我必须从Azure存储下载 .parqeat文件,并且必须分析数据。 因此,我开始将Python代码与azure-storage-blob库和Pandas一起使用来存储DataFrame和flask以在响应时创建API。 但是现在Azure存储中的文件大小已增加到30MB(每日文件),并且经过测试,将20MB文件下载到本地我花了6分钟,这是我付不起的,因为我必须分析一个月中每天的文件,每个将有20 MB。差不多有30 20MB大小。 有什么建议吗?
解决方法
你找到答案了吗?如果没有代码片段,就很难诊断您的问题。 Azure Blob 存储支持并行读取。如果您有 BatchServiceClient
服务,那就很简单了。否则,请尝试 Multiprocessing
模块。克尔。