问题描述
我有两次数据框迭代,并希望使用pandas或numpy向量化对其进行优化。到目前为止,我的代码正在消耗近5 GB的内存来存储10000个数据。请查看以下代码段:
def helper_method(self,data):
lines = {
"linesAdded": 0,"linesRemoved": 0
}
self.logger.info("helper_method ${lines}")
df_diffs = pd.DataFrame(data)
df_diffs = df_diffs.fillna(0)
data_hunks = []
for _index_diffs,row_hunks in df_diffs.iterrows():
if "hunks" in row_hunks.index.values and isinstance(
row_hunks["hunks"],list):
data_hunks.extend(row_hunks["hunks"])
df_segments = pd.io.json.json_normalize(
data_hunks,"segments")
for _index,row in df_segments.iterrows():
if row["type"] == "ADDED":
lines["linesAdded"] += len(row["lines"])
if row["type"] == "REMOVED":
lines["linesRemoved"] += len(row["lines"])
return lines
我们如何优化内存并将其转换为向量化?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)