问题描述
我有一个巨大的文件,需要将其制作成 RDD 并从 API 返回一些数据。我的代码如下:
parq_df = spark.read.csv("my_csv.csv",header = True)
parq_codes = icd_df.select('P_CODES').rdd.flatMap(lambda x: x).collect()
parq_codes
['M5126','M5416','Z4789','Z01810','S060X6D','S9032XA','S96912A','S72002A','S61411A','W268XXA','Y9269','Z23','S62639B','M25512','M1712','M25612','M62512','S39012D','S39012A','M25511','Z98890','11','29','Z5189']
import requests
import json
import pandas as pd
from pandas.io.json import json_normalize
import numpy as np
import os
import sys
proxy = 'team cluster'
os.environ['http_proxy'] = proxy
os.environ['HTTP_PROXY'] = proxy
os.environ['https_proxy'] = proxy
os.environ['HTTPS_PROXY'] = proxy
param_codes = parq_codes
odg_url = "https:my_api_url.com/&parq="
response_format = '&format=json'
for i in param_codes:
rr = requests.get('https:my_api_url.com/&parq={}'.format(i)+response_format,headers = login_details)
data = json.loads(rr.text)
我如何将我的 parq_codes rdd 解析/分区,以便我可以摆脱这个 for 循环?我需要将每个 parq 代码保留为自己的字符串,以便可以传入它,但是发生的情况是当我在 for 循环中运行它时,它得到一个 parq 代码,它无法识别返回的 json 文件变得损坏而我失去了一切。
我的问题是如何从循环中获取它:
['M5126','Z5189']
到:
'M5126~M5416~Z4789~Z01810~S060X6D~S9032XA~S96912A~S72002A~S61411A~W268XXA~Y9269~Z23~S62639B~M25512~M1712~M25612~M62512~S39012D~S39012A~M25511~Z98890~11~29~Z5189'
然后对数据进行分区,以便在调用 api 时可以将其分成三部分?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)