如何更有效地使用熊猫多索引以避免内存错误？

问题描述

我在代码中使用了多索引来创建所需的3D数组，但这会导致内存不足错误。

import pandas as pd import numpy as np import io import requests url="https://raw.githubusercontent.com/mahsa-ebrahimian/netflix_project/master/netflix_sample_complete.csv" movie_db=pd.read_csv(url,error_bad_lines=False) del movie_db['Unnamed: 0'] iix_n = pd.MultiIndex.from_product([np.unique(movie_db.user_id),np.unique(movie_db.date)]) arr = (movie_db.pivot_table('rating',['user_id','date'],'item_id',aggfunc='sum').reindex(iix_n,copy=False).to_numpy().reshape(movie_db.user_id.nunique(),movie_db.date.nunique(),-1))

任何将我的数据更改为所需3D方式的性能提示或替代解决方案。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

multi-index multidimensional-array out-of-memory pandas