问题描述
我正在使用以下脚本导入 parquet snappy 文件:
import pandas as pd
import glob
files = glob.glob('/home/....101.parquet/*.parquet')
df = pd.concat([pd.read_parquet(fp) for fp in files])
我在图片中展示的最终结果没有完全解压。
解决方法
数据完全解压,但有些列是struct types。
您可以尝试通过调用以下方法将它们展平:
import pyarrow.parquet as pq
pd.concat([pq.read_table(fp).flatten().to_pandas() for fp in files])
但我不确定它会完全有帮助,因为其中一些似乎包含数组。