Python 没有完全解压活泼的镶木地板

编程问答 2022-04-24

问题描述

我正在使用以下脚本导入 parquet snappy 文件：

import pandas as pd
import glob

files = glob.glob('/home/....101.parquet/*.parquet')
df = pd.concat([pd.read_parquet(fp) for fp in files])

我在图片中展示的最终结果没有完全解压。

解决方法

数据完全解压，但有些列是struct types。

您可以尝试通过调用以下方法将它们展平：

import pyarrow.parquet as pq

pd.concat([pq.read_table(fp).flatten().to_pandas() for fp in files])

但我不确定它会完全有帮助，因为其中一些似乎包含数组。

apache-spark parquet python snappy

相关问答

Selenium Web驱动程序和Java元素在(x，y)点处不可单击其他元素将获得点击?

Selenium Web驱动程序和Java。元素在(x，y)点处不可单击。其...

Python-如何使用点“” 访问字典成员？

Python-如何使用点“。” 访问字典成员？

Java 字符串是不可变的到底是什么意思？

Java 字符串是不可变的。到底是什么意思？

Java中的“ final”关键字如何工作？我仍然可以修改对象

Java中的“ final”关键字如何工作？（我仍然可以修改对象。...

“loop:”在Java代码中这是什么，为什么要编译？

“loop:”在Java代码中。这是什么，为什么要编译？

java.lang.ClassNotFoundException：sun.jdbc.odbc.JdbcOdbcDriver发生异常为什么？

java.lang.ClassNotFoundException：sun.jdbc.odbc.JdbcOdbc...