我们可以将 .txt 文件加载到 vaex 吗?

问题描述

我有 52.6 GB 大小的 .txt 文件文件夹。 .txt 文件位于不同的子文件夹中。每个子文件夹都有唯一的标签“F”、“G”等。每个子文件夹都有许多 .txt 文件。我需要将每个唯一标签(“F”、“G”)的所有 .txt 文件合并到一个文件中。我尝试使用 vaex。但是我找不到对 .txt 文件执行此操作的方法。有人可以帮我吗?

解决方法

如果文本文件具有 csv 格式的数据,并且文件之间的结构相同,您可以使用:

df = vaex.open_many([fpath1,fpath2,...,fpathX])

要获取所有文件名及其路径,您可以方便地使用 pathlib 递归地对文件路径进行 glob

from pathlib import Path

txt_files = Path('your_label_folder_path').rglob('*.txt')

# since this returns a generator and vaex.open_many expects a list 
# and while we're here,resolve the absolute path as well
txt_files = [txt.absolute() for txt in txt_files]

df = vaex.open_many(txt_files)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...