如何对这个 RDD 进行分区以获得更快更干净的 api 调用？

问题描述

我有一个巨大的文件，需要将其制作成 RDD 并从 API 返回一些数据。我的代码如下：

parq_df = spark.read.csv("my_csv.csv",header = True)
parq_codes = icd_df.select('P_CODES').rdd.flatMap(lambda x: x).collect()
parq_codes
['M5126','M5416','Z4789','Z01810','S060X6D','S9032XA','S96912A','S72002A','S61411A','W268XXA','Y9269','Z23','S62639B','M25512','M1712','M25612','M62512','S39012D','S39012A','M25511','Z98890','11','29','Z5189']

import requests
import json
import pandas as pd
from pandas.io.json import json_normalize
import numpy as np
import os
import sys
proxy = 'team cluster'
os.environ['http_proxy'] = proxy
os.environ['HTTP_PROXY'] = proxy
os.environ['https_proxy'] = proxy
os.environ['HTTPS_PROXY'] = proxy
param_codes = parq_codes

odg_url = "https:my_api_url.com/&parq="
response_format = '&format=json'
for i in param_codes:
    rr = requests.get('https:my_api_url.com/&parq={}'.format(i)+response_format,headers = login_details)
    data = json.loads(rr.text)

我如何将我的 parq_codes rdd 解析/分区，以便我可以摆脱这个 for 循环？我需要将每个 parq 代码保留为自己的字符串，以便可以传入它，但是发生的情况是当我在 for 循环中运行它时，它得到一个 parq 代码，它无法识别返回的 json 文件变得损坏而我失去了一切。

我的问题是如何从循环中获取它：

['M5126','Z5189']

到：

'M5126~M5416~Z4789~Z01810~S060X6D~S9032XA~S96912A~S72002A~S61411A~W268XXA~Y9269~Z23~S62639B~M25512~M1712~M25612~M62512~S39012D~S39012A~M25511~Z98890~11~29~Z5189'

然后对数据进行分区，以便在调用 api 时可以将其分成三部分？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

api api data-partitioning pyspark