读取使用pyarrow保存为实木复合地板的DataFrame,将文件名保存在列中

问题描述

我想读取一个充满包含pandas DataFrames的镶木地板文件的文件夹。除了要读取的数据外,我还想将要从中读取数据的文件名存储在“ file_origin”列中。在大熊猫中,我可以这样:

import pandas as pd
from pathlib import Path

data_dir = Path("path_of_folder_with_files")
df = pd.concat(
                pd.read_parquet(parquet_file).assign(file_origin=parquet_file.name)
                for parquet_file in data_dir.glob("*")
            )


不幸的是,这很慢。 pyarrow(或其他任何有效的软件包)有类似的方法吗?

import pyarrow.parquet as pq

table = pq.read_table(data_dir,use_threads=True)
df = table.to_pandas()

解决方法

您可以使用箭头而不是熊猫来实现它:

batches = []
for file_name in data_dir.glob("*"):
    table = pq.read_table(file_name)
    table = table.append_column("file_name",pa.array([file_name]*len(table),pa.string()))
    batches.extend(table.to_batches())
return pa.Table.from_batches(batches)

除非您的表中有很多字符串和对象(在熊猫中很慢),否则我认为它不会显着提高速度。

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...