问题描述
我被赋予将大量数据回填到Azure Datalake中的任务。不幸的是,数据源是一个REST API,它返回CSV数据作为响应主体。为了回填此数据,我应该进行多个REST API调用并将数据分块。例如,一次获取日期范围为30天的数据。 Web服务器一次只能处理2个请求,它收到的任何其他请求都将放入队列。返回的数据大小可能在100mb至2gb之间。
理想情况下,我想并行调用两个REST API请求。将REST响应数据加载到Spark Dataframe中,然后将其作为实木复合地板文件写入Datalake。
我正在考虑某些方法如何调用两个执行程序,并使每个执行程序分配一半的REST调用。我不想在驱动程序节点中读取此数据,因为驱动程序可能没有足够的内存。虽然我不知道该怎么做。
如果我走上正轨,或者您有更好的主意来解决此任务,请告诉我。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)