问题描述
我正在使用TensorFlow Extended,并堆叠在一个加载的.csv文件中。
该文件具有;
分隔,默认情况下无法由TFX生成器CsvexampleGen()
读取。它抛出以下错误:ValueError: Columns do not match specified csv headers
我发现此问题与内部依赖性有关,例如tft.coders.CsvCoder()
,它不需要默认参数即可解析.csv文件。
问题如下:
- 如何在
tft.coders.CsvCoder()
中的tfx.components.CsvexampleGen
中抛出参数?
from tfx.components import CsvexampleGen
from tfx.utils.dsl_utils import external_input
data_path = './data'
intro_component = CsvexampleGen(input=external_input(data_path))
...
解决方法
从评论中
当前解决方案是使用pandas转换数据文件:
df = pd.read_csv(_file_path,sep=';')
df.to_csv(_file_path)
(由Oleks解释)。