Table to pandas 正在扼杀我在 azure Synapse 中的会话

问题描述

我正在以表格的形式将数据库中的表格调用到突触中。然后我的下一步是转换为熊猫,以便我可以运行与熊猫相关的所有代码。但是,当我将表转换为熊猫时,会话被终止。我已经转换为镶木地板文件,但是我无法从表格转换为镶木地板,然后读取为熊猫数据框。是否有任何最佳做法:

%pyspark
rawdata = spark.sql("""select Invoice_Flag,vendor_Name,Market,Inv_Age,Inv_Amount_In_GC,Inv_Early_Late_Flag
FROM default.Regression_copy where Market='India'""")

%%pyspark
model_data= rawdata.select("*").toPandas()

在转换到 Pandas 的过程中,会话被杀死可能是因为数据量太大

解决方法

databricks 优化的 Pandas 包名为 koalas,所以我会尝试 databricks.koalas (install databricks.koalas as ks) 并使用 ks.DataFrame(rawdata) 转换为 koalas 数据帧。