TFX CsvExampleGen中CsvCoder的属性:“列与指定的csv标头不匹配”

问题描述

我正在使用TensorFlow Extended,并堆叠在一个加载的.csv文件中。 该文件具有;分隔,认情况下无法由TFX生成CsvexampleGen()读取。它抛出以下错误ValueError: Columns do not match specified csv headers

我发现此问题与内部依赖性有关,例如tft.coders.CsvCoder(),它不需要认参数即可解析.csv文件

问题如下:

  • 如何在tft.coders.CsvCoder()中的tfx.components.CsvexampleGen中抛出参数?
from tfx.components import CsvexampleGen
from tfx.utils.dsl_utils import external_input

data_path = './data'
intro_component = CsvexampleGen(input=external_input(data_path))
...

解决方法

从评论中

当前解决方案是使用pandas转换数据文件:

df = pd.read_csv(_file_path,sep=';')

df.to_csv(_file_path)

(由Oleks解释)。